sinais de áudio e vídeo, ao serem digitalizados, são transformados de sua forma analógica (sinal gerado pelo CCD e sinal gerado pelo microfone) para digital através de um processo de amostragem, denominado sampling (o princípio é o mesmo, tanto para áudio como para vídeo). As frequências com que são obtidas as amostras, tanto de áudio como de vídeo, podem estar perfeitamente sincronizadas entre si ou não, o que gera a classificação, em um determinado formato de vídeo, de seu áudio ser do tipo locked ou não.

O que ocorre é semelhante a duas pessoas correrendo juntas, uma ao lado da outra, onde uma delas é bem mais alta do que a outra, e portanto tem as pernas maiores e dá também passos maiores (mais largos) do que os da outra. Um passo da pessoa mais alta pode corresponder por exemplo a 1,2 passos da menor. Porém, existe um certo número de passos da maior que corresponde exatamente a um número redondo de passos da menor, como mostra a figura abaixo:

Na analogia, a pessoa de passo mais largo representa o vídeo e a de passo mais curto o áudio. No exemplo da esquerda, a cada 5 passos da maior ocorre sempre o sincronismo; no exemplo da direita, a cada passo da maior já ocorre o sincronismo. Seja em um caso, seja no outro, as duas fontes (áudio e vídeo) estão perfeitamente sincronizadas. Este é um exemplo (tanto no exemplo da esquerda como no da direita) de locked audio.

O sistema PAL (onde o frame rate utilizado é 50) é um exemplo como o da direita na figura acima: o sincronismo ocorre a cada quadro do sinal de vídeo, para as frequências de sampleamento de 32 e 48kHz de áudio (as mais utilizadas). O sistema NTSC (onde o frame rate utilizado é 59,94) é um exemplo como o da esquerda: com áudio de 48khz o sincronismo ocorre a cada 5 quadros de vídeo e com áudio de 32khz a cada 15 quadros.

Por outro lado, em relação à analogia inicial, se a pessoa de passo mais curto não for regular no tamanho de seus passos, podemos ter por exemplo:

O passo da menor em relação ao da maior varia, às vezes equivale a 1,4 , às vezes a 0,7 ou 1,3 e assim por diante. Há no entanto uma constante compensação e embora não exista sincronismo, sempre, com uma diferença imperceptível, veremos as duas pessoas caminhando juntas (ainda que uma delas esteja às vezes - e imperceptivelmente - ligeiramente adiantada ou atrasada). Este é um exemplo de unlocked audio. Manter o sincronismo perfeito dos dois sinais é uma tarefa custosa em termos de circuitos eletrônicos necessários. Como a diferença no modo unlocked é quase imperceptível, alguns formatos, como o Mini-DV e o Digital-8 do padrão DV por exemplo, basicamente destinado aos segmentos consumidor e semi-profissional, foram criados utilizando áudio do tipo unlocked, como medida de economia na aparelhagem. Já os formatos DVCAM e DVCPRO, também do padrão DV (voltados para os segmentos semi-profissional e profissional) utilizam áudio do tipo locked.

Nestes equipamentos, a taxa de amostragem de áudio pode oscilar ligeiramente em torno de 32 ou 48khz; durante a gravação o circuito faz o ajuste automático (aumentando ou diminuindo o passo da pessoa menor, sem deixar ultrapassar 1/3 de quadro de diferença).

O áudio do tipo unlocked normalmente não causa nunca perda de sincronismo entre imagem e som, mesmo em gravações muito extensas: como no exemplo das duas pessoas correndo, elas sempre chegarão juntas (não exatamente, mas com uma diferença imperceptível). No modo PLAY de um vídeo com áudio deste tipo, a diferença é sempre de no máximo 1/3 quadro, para mais ou para menos.

Alguns softwares de edição-não-linear geram áudio do tipo locked, outros do tipo unlocked e outros permitem escolher a opção. Isto significa que a ligeira flutuação de sincronismo do áudio no tipo unlocked é transportada para a saída, independente da mesma ser digital ou analógica.

O problema no uso do tipo unlocked pode aparecer de maneira perceptível dependendo do tipo de equipamento utilizado durante a gravação. Alguns fabricantes de câmeras que trabalham no modo unlocked optam por não utilizar o circuito que oscila a frequência do áudio para acompanhar a de vídeo. Ao invés disso, fixam a taxa de áudio em um valor bem próximo de 32 ou 48khz, porém não exatamente igual, como por exemplo 48,001 ou 48,0005 ou 48,009. Na analogia das pessoas caminhando, isto significa que dificilmente a frequência dos passos de uma pessoa vai estar em algum momento sincronizada com a da outra (áudio e vídeo estão sincronizados, suas frequências é que não). Na reprodução não haverá problema perceptível. Porém, se o áudio for tratado em equipamentos separados para posterior re-junção ao vídeo (inclusão de efeitos especiais por exemplo), o problema aparecerá. Isto porque, para o exemplo acima, estes equipamentos irão tratá-lo como se estivesse gravado a exatamente 48khz, o que acabará por 'encolher' ou 'esticar' ligeiramente o áudio (podem ocorrer diferenças de até 1 segundo / hora).

Assim, a causa do deslocamento eventual entre áudio e vídeo não é o uso do tipo unlocked e sim do processamento separado da trilha sonora quando este tipo é gerado por câmeras que não fazem a correção automática do modo unlocked. Alguns softwares de edição permitem efetuar o tratamento do áudio de maneira separada do vídeo, onde longos arquivos poderiam apresentar o problema. Por outro lado, geralmente estes softwares recalculam automaticamente a taxa de sampling durante o PLAY, para manter o sincronismo. Quando não o fazem, o deslocamento ficará aparente.

Aplicações sofisticadas de manipulação de áudio no entanto fazem parte do segmento profissional: por este motivo os formatos DVCPRO e DVCAM trabalham no modo locked e não unlocked.