no processo de digitalização, um sinal analógico é convertido para digital através de um processo denominado 'sampleamento' , do inglês 'sample', amostra. O sinal analógico é composto basicamente por uma onda, cuja variação de amplitude traduz as informações nela contidas. O processo de sampleamento consiste em obter medidas - amostras - em intervalos regulares, do valor da amplitude da onda. Se uma sucessão de montanhas de diversas alturas representasse a parte superior da onda, se tomássemos medidas sucessivas a cada 10 metros ao longo da extensão da cadeia de montanhas da altura da montanha em relação a sua base e posteriormente marcássemos em um papel quadriculado estes valores, teríamos a representação aproximada do contorno das montanhas.

Assim, é possível representar em números (informação digital) uma onda (informação analógica). Como as medidas foram tomadas em intervalos de 10 metros, teremos na representação em papel o contorno desenhado parecido com degraus sucessivos, para cima e para baixo. Se diminuirmos o intervalo entre as medidas para 5 metros, o contorno ficará mais fiel ao original. Diminuindo ainda mais a aproximação com a realidade será maior. Desta forma, quanto maior for a quantidade de amostras, melhor: diz-se, quanto maior for a taxa de sampleamento, melhor a qualidade do resultado digitalizado.

As lentes da câmera projetam sobre a superfície do CCD uma determinada imagem, que é segmentada em uma quantidade imensa de pixels: quanto maior esta quantidade, maior a resolução da imagem. A seguir, o processo de sampling analisa o sinal analógico proveniente da leitura dos pixels e o digitaliza, gerando o sinal no formato digital. O desenho abaixo ilustra esse processo, onde a linha azul representa o contorno da imagem projetada sobre o CCD, a linha verde como o CCD enxerga esse contorno, através de seus pixels e a linha rosa como fica o sinal após o sampleamento. Normalmente a quantidade de pixels por linha horizontal no CCD é maior do que a que terá o formato digital final, justamente para melhorar a qualidade da imagem capturada. Esta diferença pode ser percebida no desenho, onde apesar da perda de resolução em relação à imagem lida no CCD (e mais ainda em relação à imagem original) ainda assim para o olho humano a imagem, quando vista à distância, aparentará bastante nitidez e precisão.

Após a digitalização é gerada uma imagem composta por um determinado número fixo de pixels, de acordo com o formato empregado. No formato NTSC DV por exemplo, este número é de 720 pixels de largura por 480 pixels de altura, ou seja 345.600 pixels. Para o padrão NTSC, que é do tipo entrelaçado, existirão 2 campos (linhas pares e ímpares) formando cada quadro da imagem; assim, metade desses pixels estará representando as linhas pares e a outra metade as linhas ímpares. Em softwares de edição normalmente a menor unidade de imagem exibida na tela é um quadro (frame), que contém os 2 campos. Assim, ao visualizar-se determinado quadro na tela do microcomputador estarão sendo visualizadas todas as linhas que compõem a imagem (os 2 campos juntos), ou seja, todos os 345.600 pixels. Esta forma de visualização (todas as linhas) combina com o modo de exibição utilizado nas telas dos microcomputadores, que é do tipo progressive scan ao invés de entrelaçado (como nas TVs e monitores).

O sinal analógico lido do CCD contém as informações de luminosidade e ao mesmo tempo também as de cor, seja através de lentes coloridas que recobrem os pixels em forma de mosaico (RGB) ou através do uso de 3 CCDs separados, um para cada cor. Este sinal gerado é do tipo RGB; a seguir, o mesmo é convertido para sinal outro sinal ainda analógico, o YUV . A seguir, o sinal YUV é então digitalizado.

Na digitalização para o formato DV por exemplo, o componente luminância é sampleado a uma taxa de 13,5 Mhz (frequência com que as amostras (medidas) são tomadas por segundo). Os componentes U e V são sampleados a uma taxa menor, 3,37 Mhz - a informação de cor não é tão importante na formação da imagem para o olho humano quanto a de luminosidade (tons claros-escuros).Este processo de redução de cor na amostragem recebe o nome de chroma subsampling.Assim, pode-se dizer que a taxa de sampleamento do sinal de luminosidade no formato de vídeo DV é quatro vezes maior do que a do sinal de cor (3,37MHz contra 13,5MHz), o que é representado por

4:1:1

porque esta é a proporção de sampleamento (amostragem) entre os 3 componentes. Já nos formatos Digital Betacam, DVCPRO50, DVCPRO HD e Digital-S por exemplo, esta taxa é de

4:2:2

resultando em melhor qualidade de imagem (melhor resolução de cor). O algoritmo de compressão MPEG2 também pode opcionalmente comprimir dados utilizando esta taxa. Já o mesmo algoritmo quando utilizado em DVD-Video, as imagens em MPEG1, JPEG, MJPEG , o formato DV no padrão PAL europeu e o formato HD HDV empregam a mesma taxa 4:2:2 porém alternando-se a presença dos componentes "U" e "V" linha a linha. Para representar este processo, utiliza-se a notação (menos intuitiva que as demais)

4:2:0

e se durante a digitalização o sinal original RGB não sofrer redução de resolução de seus componentes de cor, diz-se que o sinal é do tipo

4:4:4

por outro lado, a comparação direta de formatos utilizando somente estes números, se não interpretados corretamente, leva a resultados falsos. Assim, por exemplo, o formato HDCAM de alta definição (HD) emprega taxa de sampling de

3:1:1

o que significa que o componente luminância possui sampling 3 vezes maior do que a dos componentes "U" e "V". Este formato no entanto possui imagem muito melhor do que a do formato Digital Betacam, com 4:2:2. O que ocorre é que o valor "3" ou "4" na indicação da taxa não tem valor absoluto, significando apenas a proporção de sampling entre luminância e cor. De fato, enquanto a taxa de sampling de luminosidade (não de cor) no DV é de 13,5Mhz, no HDCAM (idem) é de 74,5Mhz, muito maior portanto.

Formatos com pouca amostragem de cor, como os da família DV, apresentam maior dificuldade para cromakey do que os com melhor amostragem, como por exemplo o Digital Betacam. No desenho abaixo, a linha central corresponde à imagem original. A linha de cima, corresponde à imagem obtida por um formato de vídeo com amostragem 4:1:1 e a linha de baixo, a um formato de vídeo com amostragem 4:2:2:

Pode-se perceber que, em relação à linha central, a linha superior reproduz as cores com menor fidelidade em relação à linha inferior. Isso porque os programas de amostragem na verdade lêem a informação de cor para todos os pixels, mas a seguir calculam a média dos componentes RGB para um determinado grupo de pixels (p.ex. para grupos de 4 no sistema 4:1:1), obtendo assim a "cor média" do trecho. A seguir, essa cor é considerada como a cor dos pixels, aplicando-se sobre ela a seguir somente o componente luminosidade, ou seja, se essa mesma cor possui uma tonalidade mais escura ou mais clara em determinado pixel.

O fato aparentemente pode encerrar uma contradição, pois quando se observa no monitor a imagem de um determinado conteúdo gravado em DV, as cores parecem geralmente nítidas e precisas. O que acontece é que 4 pixels em uma linha de vídeo tem um tamanho muito pequeno para um observador olhando para a tela toda. Por outro lado, as cores na realidade na natureza dificilmente possuem variação muito brusca de uma cor para outra completamente diferente, pixel a pixel. São normalmente trechos maiores, como uma blusa rosa que teria início na linha central da figura acima, na parte da direita. Ou uma camisa azul, na esquerda. E o verde da vegetação ao fundo, no meio. Percebe-se que a falta de precisão de cor ocorre nos limites desses trechos maiores dominados por uma única cor, ou, em outras palavras, nos contornos de determinada figura, justamente onde o efeito cromakey vai buscar seu recorte.

Por esse motivo, quanto mais precisa for a representação das cores, mais fiel será o recorte de cromakey. No entanto, tem-se por outro lado o desenvolvimento de inúmeras ferramentas de composição (programas que fazem cromakey) que oferecem recursos eletrônicos para corrigir essas falhas. A diferença que fica é que um é um processo eletrônico de correção, enquanto outro (utilizar um formato com maior amostragem de cor) tem nativamente um melhor recorte.

Em termos de custo, benefício e exigência de qualidade, os dois sistemas são equivalentes, porém cada qual dentro de seu nicho de aplicação (profissionais e usuários de aplicações gráficas poderão preferir, dependendo da qualidade necessária para determinado tipo de trabalho, a captação nativa com maior resolução de cor).