|
|
|
|
|
Informações Técnicas |
|

DSS ... continua na página anterior ( clique aqui )
DSP (Digital Signal Processing) Circuito eletrônico existente em algumas câmeras analógicas, que converte para digital o sinal obtido na leitura do CCD, efetua processamentos de correção e melhoria no mesmo e o reconverte novamente para analógico para ser gravado na fita. Muitas vezes este circuito exerce também opcionalmente outras funções, como gerar efeitos especiais (strobe, still, p.ex.) que são adicionados à imagem neste momento.
DTVLink nome padronizado pelo CEA (Consumer Electronics Association) para a interface IEEE-1394.
DVI (Digital Visual Interface) conexão para áudio e vídeo em alta definição (HD), do tipo digital sem compressão; assim como a conexão HDMI, é voltada para o segmento consumidor, conectando televisores HD, DVD players, dispositivos com sinais HDTV e outros, principalmente em home theaters. Proposta em 1999 por um consórcio de empresas (Compaq, Fujitsu, HP, IBM, Intel, Silicon e NEC) denominado Digital Display Working Group (DDWG). A conexão DVI prevê o uso de um ou dois links (conjuntos independentes de fios), o que se reflete em seu conector, que possui espaço para os dois conjuntos de links, mas pode usar somente um deles. Se for necessário o uso de maior largura de banda (bandwidth) para transmissão das informações (como nos formatos HD por exemplo) os dois conjuntos são utilizados. Este esquema foi pensado com a idéia de que o conector DVI pudesse ter utilização a mais abrangente possível, possibilitando seu uso para ligação de aparelhos tanto SD como HD. A abrangência de seu uso é ainda maior ao possibilitar também a transmissão de sinal analógico para monitores de vídeo tradicionais do tipo VGA, o que é feito através de pinos adicionais incluídos no conector. A figura abaixo mostra os 5 tipos possíveis de plugs DVI:


Este tipo de conexão também permite ligar monitores a computadores, servindo como alternativa à tradicional conexão do tipo VGA, porém com qualidade bem melhor de imagem. Para isso, o computador deve possuir uma placa gráfica com este tipo de saída e o monitor uma entrada DVI.
dynamic range Na captura de imagens, dynamic range é o conjunto de todas as variações de intensidade luminosa que determinado equipamento utilizado para o registro visual pode captar. O range abrangido pelas câmeras de vídeo normalmente é inferior ao abrangido pelo olho humano. Assim, a câmera torna-se frequentemente incapaz de reproduzir por exemplo variações de intensidade em áreas muito claras: todas essas variações tornam-se para o olho humano uma só, de cor branca, acarretando a perda de detalhes nessas áreas, o que se denomina super-exposição. Para evitar esse problema existem algumas alternativas, como diminuir a abertura da íris ou o tempo de exposição. Esses ajustes no entanto afetam a imagem como um todo, não só as áreas muito claras. Existe no entanto um tipo de ajuste que atua somente sobre essas áreas: é o ajuste de knee .
EDH Error Sistema de verificação de erros na transmissão de sinais de vídeo digitais através de conexões do tipo SDI. A transmissão de informações entre duas fontes, quando feita através de um sinal analógico, está sempre sujeita a perdas durante o processo. Na realidade, a rigor qualquer transmissão entre duas fontes, sejam elas analógicas ou digitais, está sujeita à perdas. Seja por deficiências na condução elétrica (cabos e conectores), mau contato, interferências eletromagnéticas (campos produzidos por motores ligados, alto-falantes, telefones celulares etc...) e outras causas ela invariavelmente cedo ou tarde acaba ocorrendo.
Não é possível corrigir um sinal analógico que chegou defeituoso no destino, pois inexiste forma de se saber como era o sinal quando saiu da origem, daí os conhecidos problemas de perda em gerações (loss generation) criadas através do processo analógico de edição linear.
Já com os sinais digitais normalmente este problema não acontece, pois juntamente com o envio do sinal, a fonte origem envia também junto com ele informações codificadas que permitem que o receptor, no destino, efetue alguns cálculos matemáticos com essas informações e descubra se algo ocorreu no caminho. Um exemplo simples que pode dar a idéia do que ocorre é o cálculo dos dígitos de controle do número do CPF; o cálculo é feito com os números anteriores aos dígitos de controle (o número de fato do CPF, o principal), obtendo-se assim um número - o primeiro algarismo de controle. A seguir, juntando-se o número principal com esse primeiro dígito de controle e re-efetuando o cálculo, obtém-se o segundo dígito de controle. Quanto o computador tem que verificar a validade da informação, refaz os cálculos com o número fornecido - qualquer mudança em um dos algarismos, tornando-o diferente do número original, fará com que o cálculo resulte em dígitos de controle diferentes, indicando assim ao sistema que aquele número é um número de CPF inválido.
Com o sinal de vídeo, tudo se passa como se fosse efetuado um cálculo com trechos da informação do sinal, obtendo-se "números de controle", que são enviados juntamente com esse sinal. No destino, o cálculo é refeito, para verificar se houve algum problema durante a transmissão. Dependendo do que ocorreu, o próprio sistema no destino pode corrigir o erro, através de diferentes algoritmos matemáticos. Caso contrário, ele solicita novamente à origem que efetue uma retransmissão do trecho da informação com problema.
No caso da maioria dos sinais digitais de vídeo acontece a mesma coisa, no entanto, para o SDI (e não o HD-SDI por exemplo), não há geração desses controles na emissão (origem). Assim, um eventual problema durante a transmissão não seria detectado. Desta forma, os sistemas que fazem a emissão desses sinais podem eles próprios acrescentar seus dispositivos de controle particulares de integridade do sinal. E para não alterar o conteúdo transmitido (os quadros de imagem), só existe um local onde o mesmo pode ser colocado: o intervalo de controle vertical (vertical sync pulse) que fica entre os quadros. Nos formatos digitais esse intervalo, próprio dos sistemas analógicos, não existe - não é necessário para controlar as informações de desenho da imagem na tela. No entanto, em estúdios é comum a comunicação de sinais entre equipamentos, e em determinadas situações este sinal deve estar preparado para a forma padrão de transmissão de TV - analógica, contendo portanto elementos como este intervalo.
Nesse local há uma área deixada vazia originalmente no projeto NTSC (ou pelo menos não utilizada na quase totalidade das situações). É nessa áreas que é gravado por exemplo o Timecode VITC (Vertical Interval Timecode) nos sistemas analógicos, e também é nessa área que os sistemas que trabalham com SDI gravam o conteúdo de controle chamado EDH (Error Detection and Handling).
Ao contrário dos procedimentos padrão existentes nos sinais digitais, que como ilustrado acima permitem muitas vezes corrigir o defeito do sinal que chegou no destino, ou então pedir sua retransmissão, no caso do EDH nada disso é feito: a tecnologia utilizada é muito simples, pois no destino somente é refeito o cálculo e verificado se a informação está correta. Se estiver, o sinal chegou sem problemas pelo caminho. Se não estiver, isso indica que houve problemas e que o que está chegando no destino não é idêntico ao que está sendo transmitido. Isso fará por exemplo acender uma luz de alerta no hardware de destino, indicando a necessidade de procedimentos de correção que, como visto, nesse caso não são automáticos.
Sua finalidade assim é permitir identificar equipamentos no sistema que estejam apresentando eventuais falhas.
FireWire protocolo desenvolvido pela Apple Computer, que originou o IEEE-1394.
FireWire, conector o mesmo que IEEE-1394 conector.
frame rate quantidade de quadros exibidos por segundo em um vídeo ou filme. O cinema, que é anterior à televisão, consolidou-se exibindo 16 qps (quadros por segundo) na época do cinema mudo. Esta taxa permitia exibir os movimentos das cenas sem utilizar quantidade demasiada de película, muito cara na época. Quando surgiu o cinema sonoro, a velocidade de passagem do filme no projetor teve que ser aumentada para garantir uma qualidade mínima ao som: a trilha sonora passou a fazer parte da película. E a velocidade de 24 qps foi a menor encontrada que podia garantir esta qualidade mínima ao som, sempre levando-se em conta o objetivo de economia de película. Mais tarde, algumas experiências foram feitas em diferentes valores de frame rate, porém permaneceu em uso o valor 24 qps.
A televisão, assim como o cinema, passou pelo uso de diferentes valores de frame rate. No entanto, ao contrário deste, que usou durante um certo tempo 16qps antes de passar para 24qps, a televisão consolidou-se com a criação do padrão NTSC, na década de 40, exibindo, ainda em preto e branco, 30 qps. O sistema utilizado, em uso até hoje, é o interlaced, onde um quadro é formado por 2 campos. Como cada campo representa uma leitura da imagem de alto a baixo em um determinado intervalo de tempo, é usual indicar seu frame rate como 60i (60 campos por segundo, no modo interlaced). Nos sistemas PAL, existem 2 valores de frame rate em uso: 60i (sistema PAL-M) e 50i (nos demais). No sistema SECAM o valor do frame rate é 50i.
O valor escolhido para frame rate nestes sistemas (60 e 50) tem ligação direta com a ciclagem da corrente elétrica utilizada no país. Nos EUA, onde o sistema NTSC foi criado, a corrente elétrica funciona em 60 ciclos; na maioria dos países europeus (onde SECAM e sistemas PAL foram criados) a corrente elétrica funciona em 50 ciclos e no Brasil (onde o sistema usado é o PAL-M) a corrente elétrica funciona em 60 ciclos.
A associação entre ciclagem e frame rate para televisão tem origem em várias questões técnicas. Na época, o isolamento dos circuitos eletrônicos dos aparelhos de TV da rede elétrica não era ainda muito desenvolvido: nos primeiros sistemas de TV criados, eram comuns instabilidades na imagem causadas por interferências de frequência da rede sobre o circuito de imagem. Pensou-se assim em minimizar estas interferências fazendo com que a frequência de montagem da imagem fosse a mesma do sinal elétrico e estivesse associada (em fase) com ela.
Outro problema era a questão incômoda para o expectador da imagem piscando, fenômeno denominado flicker, bastante acentuado para o olho humano quando uma luz pisca menos de 40 vezes por segundo. No cinema este problema já havia sido enfrentado e contornado: apesar de serem mostrados 24qps, o obturador do projetor de cinema (dispositivo com lâminas metálicas que abrem e fecham a passagem de luz) na realidade abre e fecha duas vezes para cada quadro exposto. Assim, a película é avançada e um quadro é posicionado em frente à objetiva. O obturador abre e fecha. A seguir, abre novamente e fecha e só então o quadro seguinte é posicionado. Com isso, a luz projetada pisca 48 vezes por segundo (frequência de 48Hz), o que é tolerável para o expectador.
Na televisão, não era possível na época a transmissão de 48 quadros completos por segundo para as antenas dos receptores: haviam limitações na largura de banda (bandwidth) disponível. A solução foi o sistema interlaced, que transmitia somente metade da imagem (linhas pares / ímpares) a cada vez. Ao mesmo tempo, a camada de fósforo que recobria internamente os tubos de imagem não era suficientemente desenvolvida para permitir taxas muito maiores de frequência no desenho de imagens.
Os primeiros sistemas experimentais de TV empregavam 48Hz, mas, ao mesmo tempo em que era proposta a adoção do sistema 60i, novos tubos de imagem, mais luminosos, acabavam de ser desenvolvidos. O aumento da frequência de 48Hz para 60Hz permitiria assim também o uso desses novos tubos, reduzindo bastante a ocorrência de flicker (neste caso beneficiando bem mais os sistemas de 60qps do que os de 50qps), sem comprometer os requisitos de bandwidth.
Alem do modo interlaced, imagens em vídeo podem ser gravadas e exibidas no modo progressive. No sistema NTSC, no modo progressive os principais valores de frame rate utilizados são 24 e 30, indicados por 24p / 30p (24 ou 30 qps, no modo progressive). Os sistemas PAL também possuem a opção do modo progressive, utilizando frame rate de 25 qps, ou, 25p.
O quadro abaixo mostra alguns valores de frame rate utilizados em cinema e vídeo:

Quando foi iniciado o desenvolvimento do sistema NTSC colorido, a grande base de televisores P&B já instalada colocou aos especialistas um dilema: desenvolver um sistema completamente novo faria com que todos esses aparelhos se tornassem obsoletos, exigindo sua troca, e a coexistência de 2 sistemas não era prática. A solução encontrada foi embutir os sinais de cores dentro do sinal já existente P&B, de modo que televisores antigos conseguissem interpretar como P&B imagens transmitidas em cores. Esta modificação exigiu algumas alterações, no entanto; assim, diversos requisitos técnicos fizeram com que o frame rate tivesse que ser alterado ligeiramente, de 30 qps para 29,97 qps (uma diferença de 0,1%).
Consequentemente, passaram a ser exibidos 59,94 campos por segundo neste sistema. Este é o valor preciso utilizado até hoje, embora para facilidade de comunicação seja usual a referência simplificada de "30" e "60". Esta diferença, que não ocorre em outros sistemas, onde os valores são exatos (sistemas PAL (exceto PAL-M) e SECAM com 25 e 50), afeta a contagem e numeração dos quadros (processo denominado Timecode), gerando os tipos drop e non-drop Timecode.
Apesar desta diferença, o frame rate para o sistema NTSC é indicado como 60i (e a quantidade de quadros como 30qps) para facilidade de documentação e comunicação.
full HD termo aplicado a imagens com resolução vertical de 1080 pixels e resolução horizontal de 1920 pixels (resolução de imagens digitais). Existem diversos sistemas que propiciam imagens HD, com diversos níveis de resolução. Dentre estas, a resolução 1080x1920 pixels é a maior disponível em vários equipamentos de vídeo comercializados e utilizados em diferentes aplicações, com exceção de alguns sistemas experimentais e do cinema digital, que utiliza padrões de resolução acima destes, como por exemplo 2K / 4K. Por este motivo, esta resolução (1080x1920) tornou-se conhecida como full HD. O termo engloba ainda outras 2 características dessas imagens: o modo progressive scan e o aspect ratio 16:9.
gamma correction (gamma encoding, gamma compression) processo de ajuste eletrônico da curva de sensibilidade do sinal de vídeo lido dos sensores de imagem CCD /CMOS. Seu objetivo é codificar a intensidade da luminosidade na imagem obtida pela câmera de forma a coincidir com a maneira como o olho humano enxerga imagens de maneira geral e, além disso, para obter o melhor resultado utilizando um número limitado de bits. O estudo de gamma correction envolve conceitos de diferentes áreas do conhecimento humano: Percepção visual, Física, Fotografia e Vídeo.
No processo de geração de um sinal de vídeo através dos sensores CCD/CMOS, quanto maior a quantidade de luz recebida por um determinado pixel , mais intensa a corrente elétrica gerada (efeito fotoelétrico na superfície foto-sensível do pixel) e portanto maior a carga acumulada nos acumuladores individuais associados a cada pixel. Ao ser feita a leitura de uma determinada linha de pixels, será possível associar intensidade da voltagem lida do acumulador com luminosidade de cada pixel. Em outras palavras, quanto maior a luminosidade maior será a corrente gerada. Essa relação no sensor é diretamente proporcional, como mostra o desenho (gráfico em forma de reta):
No entanto, o registro do olho humano para a mesma cena é diferente, como mostra o gráfico abaixo:
O olho humano percebe a luminosidade de maneira não uniforme, principalmente na faixa intermediária de tonalidades (meios-tons), acentuando seus valores. Observando o gráfico acima, para uma intensidade média de determinada imagem vista pelo olho humano e também vista pela câmera, a percepção para o olho é maior do que o sinal gerado no sensor. O registro feito pelo sensor portanto é mais escuro (ou menos luminoso) de maneira geral do que o feito pelo olho humano.
Por outro lado, os dispositivos do tipo CRT não conseguem mostrar as imagens da forma como foram capturadas pelo sensor: à medida que o sinal aumenta, o brilho na tela não aumenta na mesma proporção, de forma linear (gráfico em forma de reta) e sim através de um gráfico em forma de curva. Este fato não tem relação com a superfície interna recoberta de fósforo do tubo de imagem CRT e sim com características próprias do canhão de elétrons no interior do tubo (interação eletrostática entre o cátodo e a tela que controla o facho de elétrons). O gráfico abaixo mostra a curva não-linear no gráfico que relaciona sinal e brilho na tela em um CRT:
Portanto a imagem obtida pela câmera seria mostrada da seguinte forma pelo CRT (mais escura do que deveria):
essa curva de reprodução de imagem do CRT é descrita através da equação:
onde γ (gamma) é o expoente, cujo valor, constante, aproxima-se muito de 2,5. Como o expoente é constante e a base é que varia, essa função denomina-se função potencial (ao contrário das funções exponenciais, onde quem varia é o expoente e não a base).O gráfico abaixo mostra a curva, que tornou-se conhecida como curva de gamma, levando o nome do expoente da equação que a determina:
O valor 0,7 por exemplo, de intensidade de sinal, quando elevado ao expoente 2,5 resulta em 0,4099 na escala de intensidade luminosa, o que é mostrado no gráfico através das retas verdes. Se a resposta do sinal efetuada pelo CRT fosse linear, o valor de intensidade luminosa nesse ponto também seria de 0,7. Para compensar esse desvio, o sinal lido do sensor é modificado ainda na câmera, antes ou após passar pelos processos de amostragem, digitalização e compressão (conforme o equipamento, podendo ocorrer ajustes também nas duas fases), em um processo denominado gamma correction. Essa modificação compensa o modo de exibição do CRT reforçando o sinal de maneira contrária, ou seja, a curva que descreve a voltagem gerada no sensor é alterada como:
o efeito dessa compensação é que as duas curvas somam-se (sinal alterado e forma de reprodução do CRT) e o resultado é o desaparecimento da não-linearidade no CRT: a sua exibição de luminosidade torna-se uniforme, linear, como mostra o desenho abaixo:
essa curva é descrita através da equação:
onde o expoente é exatamente o inverso do expoente gamma (g) da curva anterior: 1/g. Como seu valor gira em torno de 2,5, o expoente = 1/2,5. As duas curvas são uma o inverso da outra, como mostra o gráfico abaixo:
o processo todo pode ser visualizado no gráfico abaixo:
com o processo de gamma correction a câmera mimetiza a forma de enxergar do olho humano. A correção é necessária por 2 aspectos: físico e perceptual. Físico, para compensar a não-linearidade do CRT na obtenção da reprodução correta das intensidades dos diversos trechos da imagem. Perceptual, por dois motivos: minimizar a visibilidade de "ruídos" na imagem (quando a TV surgiu, percebeu-se que o sinal, se transmitido na forma não-linear ajudava a minimizar a visualização dos "ruídos" na imagem involuntariamente surgidos durante o processo de transmissão) e conseguir representar imagens utilizando um número restrito de bits após o processo de digitalização. Esses ruídos são mais visíveis na faixa de tonalidades mais escuras da imagem, conforme visto adiante.
Se o sinal permanece na forma linear, para cada variação de unidade de intensidade de sinal corresponde, como visto acima, uma determinada intensidade de luminosidade. No entanto, o olho humano não percebe diferenciação entre vários desses pontos na escala superior da reta. Por outro lado, percebe exageradamente na escala inferior, o que deve ser evitado. Tem-se então trechos com dados armazenados inutilmente - ocupando espaço na banda de transmissão. Quando o sinal é representado na forma curva mostrada acima, essas áreas, principalmente as de baixa luminosidade (baixas luzes) e alta luminosidade (altas luzes) ficam comprimidas, exigindo menos intervalos no eixo horizontal do gráfico para serem representadas. Isso significa que a mesma imagem pode ser representada através de um número menor de variações na intensidade do sinal, o que se traduz por um número menor de bits após a digitalização. Por outro lado este processo é responsável pela falta de maior latitude do vídeo em relação à película fotográfica / cinematográfica.
Pode-se por exemplo imaginar um gráfico relacionando voltagem (no eixo horizontal) com intensidade luminosa (no eixo vertical): conforme visto acima, no sinal gerado pelo sensor este gráfico é linear (reta). Supondo-se que se queira representar um intervalo de 255 variações de intensidade, serão necessários 8 bits para tal, pois o maior número que pode ser representado nesse sistema de numeração, com 8 bits, é 255 (11111111 em binário). Nessa representação, o código "0" significaria preto absoluto, e o valor "255" o branco absoluto (trata-se de luminosidade, não estão sendo empregadas cores aqui). Conforme Charles Poynton em seu livro A Technical Introduction to Digital Video, cap. 6, nessa escala o código "100" representaria uma determinada tonalidade de cinza claro que seria o limite da percepção do olho humano em termos de diferenças de intensidade de cor. Para valores acima de "100", a taxa de variação de intensidade luminosa entre uma determinada tonalidade e a seguinte estaria abaixo de 1% e para valores abaixo de "100" esta variação estaria acima de 1%.
No caso de valores abaixo de "100", à medida que percorremos a escala em direção ao "0" (preto absoluto), poderemos notar um aumento gradativo na diferença de tonalidade entre uma escolhida ao acaso e sua vizinha. Na posição do código "25" esta diferença é da ordem de 4%, ou seja, existe nesse trecho falta de suavidade entre um "degrau" e outro de tonalidade, sendo as diferenças mais marcantes. Esse fato traduziria-se por defeitos ("ruídos") nas partes escuras das imagens, especialmente nas que apresentassem trechos onde a luminosidade variasse muito suavemente. Ao invés de uma variação suave, percebem-se as faixas de variação de tonalidade, defeito conhecido como banding ou contouring.
No caso de valores acima de "100", não existem os "ruídos" acima descritos. No entanto, à medida que percorremos a escala em direção ao "255" (branco absoluto), cada vez diminui mais a percepção do olho humano em relação às variações de luminosidade. Na posição de código "200" a diferença de tonalidade entre ela e a seguinte é da ordem de 0,5%, muito acima do limite para o qual o olho consegue perceber alguma diferença (1%). Dessa forma, uma faixa qualquer nesse trecho, por exemplo de "180" a "210" poderia ser representada por um único valor, o mesmo, ao invés de valores individuais e o olho nada perceberia com isso.
Ainda, conforme Poynton, para compor um conjunto homogêneo de graduação de intensidades, variando suavemente do preto absoluto ao branco absoluto sem que se perceba os diversos degraus nesse intervalo, é preciso, como visto acima, que a diferença entre um degrau e seu vizinho seja menor do que 1% do total de intensidade luminosa (referência branco absoluto). Desta forma, acrescentando-se pouco a pouco intervalos cada vez mais claros em 0,01 de variação de intensidade luminosa (1%), a partir do preto absoluto, até a posição 100 (porque a partir desta posição não se distinguem mais variações, como visto acima), tem-se 100/0,01 = 10.000. Esse número, convertido para o sistema binário ocupa 14bits. No entanto, utilizando a forma não-linear de representação (curva da função potencial vista acima), é possível representar a mesma imagem, com a mesma perceptibilidade para o olho humano usando em torno de 460 códigos diferentes ao invés dos 10.000 acima. Para representar esse intervalo, bastam os 8 bits citados.
Isso mostra que a representação linear de uma imagem não é uma técnica otimizada, ao dispender desnecessariamente informações inutilmente armazenadas e transmitidas. Com o limite de percepção do olho humano situado na faixa de 1%, basta reter, de toda a informação contida na escala 0-255, apenas aqueles valores situados acima desse valor. Além disso, é recomendável diminuir a quantidade de variações nas tonalidades próximas do preto absoluto, por questões de ruídos na imagem, como visto acima.
E a representação que melhor traduz essa modificação no sinal de vídeo é a curva da função potencial (curva "virada para baixo", onde o expoente gamma tem valor 1/2,5). Por este motivo é uma feliz coincidência a curva de representação do CRT ser muito aproximadamente o inverso desta curva, exigindo, para correção, a codificação do sinal de vídeo desta forma.
Na realidade no entanto, é empregada uma pequena variação nesse valor de expoente: percebeu-se que com a correção de gamma ajustada para 1/2,5 em ambientes claros a imagem do televisor apresentava-se bem nítida, com contraste e luminosidade corretos. No entanto, em ambientes ligeiramente escurecidos a imagem do televisor era percebida pelo olho humano como tendo pouco contraste. A causa deste problema é um fenômeno denominado surround effect , exemplificado pelo desenho abaixo:
Conforme demonstrado pelos pesquisadores DeMarsh e Giorgianni, entre os diversos mecanismos de adaptação empregados pelo olho humano, um deles consiste em aumentar a sensibidade a pequenas variações de luminosidade, quando esses trechos na imagem estão cercados (daí o nome surround) por outros trechos também claros. O fato de toda a imagem ser mais clara reduziria o contraste total da mesma, incluindo o da área de interesse na imagem. Para compensar este fato, o olho aumentaria o contraste da área de interesse. De maneira inversa, quando a área de interesse é circundada por trechos escuros, todo o contraste geral da imagem aumentaria, e para compensar, o olho diminuiria o contraste da área de interesse.
Na figura acima, os 3 quadrados centrais possuem exatamente a mesma luminosidade, mas na parte superior da figura o contraste entre eles aparenta ser maior do que na parte inferior, especialmente quando se observa o quadrado preto mais à esquerda. Este fenômeno foi notado primeiro no processo de revelação de películas fotográficas para confecção de slides para projeção. Utilizando o mesmo ajuste de obtenção de nível de contraste no filme, a cópia impressa de determinada fotografia apresentava-se com bom contraste. No entanto, na versão slide da mesma foto, a projeção apresentava falta de contraste, devido ao fenômeno surround effect. Para compensá-lo, o processo de revelação de negativos para confecção de slides (diapositivos) passou a empregar uma taxa maior de contraste nas imagens.
O mesmo aconteceu com a TV) : como na maioria das situações a TV é vista em salas / ambientes com pouca luz, convencionou-se distorcer a curva de correção de gamma para gerar mais contraste, diminuindo-se o valor do expoente, no sistema NTSC , de 1/2,5 para 1/2,2. Isso faz com que a curva de correção torne-se ligeiramente mais "esticada", como mostra o gráfico abaixo:
Quanto mais "vertical" a curva, maior é o contraste, pois para muitas variações de intensidade de sinal existirão poucas variações de luminosidade. A figura abaixo se propõe a mostrar isso modificando a forma da curva de gamma. Na figura da esquerda a curva foi alterada para aproximar-se da posição vertical: com isso, um pequeno valor de deslocamento no eixo da intensidade de sinal (eixo "x") corresponde a um grande deslocamento no eixo das intensidades (eixo "y"). A imagem ganhou mais contraste quando comparada com a imagem original, ao centro. Esta, por sua vez, corresponde à posição normal da curva, inalterada. Já na imagem mais á direita, a curva foi inclinada no sentido horizontal e o inverso passou a ocorrer: a um determinado valor de deslocamento no eixo "x" corresponde um pequeno valor de deslocamento no eixo "y", ou seja, a luminosidade não altera muito ou, em outras palavras, a imagem perde bastante contraste, ficando com o aspecto dito "lavada".
Na realidade essas modificações, ilustradas através de um gráfico do tipo reta, funcionam da mesma maneira para ajustes efetuados na curva real de gamma: se determinado trecho dela for inclinado em direção á posição vertical, haverá maior variação de luminosidade nesse trecho (maior contraste). Por outro lado, se for inclinada em direção à posição horizontal, o trecho perderá contraste.
A correção de gamma foi estabelecida em função dos televisores disponíveis à época, todos do tipo CRT. Nos anos recentes novas tecnologias surgiram, como LCD , plasma , OLED e outras. Estes equipamentos fazem ajustes internos no sinal recebido, não necessariamente como os CRTs fazem, mas de forma a poderem dentro de suas características específicas, utilizando o mesmo sinal, exibir imagens da melhor forma possível.
Um outro pequeno ajuste também é acrescentado na curva: sua parte inicial, correspondente às luzes baixas (trecho próximo do preto absoluto) é tornada reta, para minimizar a presença comum de ruídos de imagem nessas áreas, devido às características dos sensores empregados. O gráfico abaixo mostra esse trecho:
Assim, a correção de gamma não é simplesmente a inversão simples da curva de resposta do CRT: além dessa inversão, duas correções adicionais são acrescentadas, o ajuste na parte inicial acima descrito e o deslocamento do expoente devido ao surround effect também acima descrito.
A correção de gamma foi colocada, com o desenvolvimento das transmissões de TV, no momento da geração das imagens, mais especificamente dentro das câmeras, por uma questão econômica: ou ela seria feita dentro dos televisores (CRTs) ou dentro das câmeras. No entanto, efetuar esta correção nos televisores implicaria em acrescentar circuitos às mesmas, uma questão mais fácil de ser resolvida em termos de custo x benefício dentro das próprias câmeras.
Dentro da câmera, o ajuste é efetuado na fase de captura das imagens, através de um circuito denominado DSP - Digital Signal Processor, que atua após o sinal ter sido digitalizado, na sua forma digital componente.
A principal função do DSP é a correção de gamma, mas câmeras mais elaboradas oferecem a possibilidade de efetuar ajustes adicionais nessa curva após a correção básica ter sido feita. Estas alterações normalmente são pré-determinadas de fábrica e cada uma delas acarreta um look ligeiramente diferente na imagem, ora acentuando o contraste, ora o diminuindo, ora fazendo alterações somente nas áreas mais claras, ou mais escuras, etc... A figura abaixo mostra as curvas de gamma disponíveis para seleção na câmera Panasonic AG-DVX100B:
A figura abaixo, mostra o mesmo tipo de curvas, para a câmera Sony PMW-EX1:

Conforme foi dito, quanto mais vertical o trecho da curva, maior o intervalo de tonalidades diferentes (latitude) perceptível para o olho humano abrangido e portanto maior o contraste. Quanto mais horizontal determinado trecho da curva for, menor o intervalo de tonalidades abrangido e menor o contraste.
É possível efetuar um ajuste somente na parte superior da curva, região das partes mais claras da imagem (altas luzes). Essa região no gráfico é denominada knee e seu ajuste permite distorcer a curva para baixo somente nesse trecho, causando um "achatamento" na variação de tonalidades claras.
A correção pode atuar somente na luminância (câmeras P&B) ou sobre os sinais RGB (câmeras coloridas atuais); neste caso, cada um dos 3 sinais RGB tem sua própria curva de gamma. Geralmente os ajustes disponibilizados nas câmeras para gamma atuam conjuntamente sobre os 3 sinais.
Os ajustes de gamma levam em conta a exibição correta no monitor: a curva supõe o ajuste de brilho do mesmo na sua posição média. Aumentar ou diminuir o ajuste no botão do brilho (ou controle equivalente, via menu) desloca a curva de gamma para cima ou para baixo, alterando o seu expoente. Trata-se desta forma de acrescentar desvios à esquerda ou à direita, para além da correção efetuada pelo sistema câmera / monitor.
Em fotografia com película (idem cinema) a curva de gamma também é empregada para medir o contraste, no caso, construída através de uma fórmula cujo resultado é uma curva muitas vezes representada, de acordo com o significado disposto em seus eixos, através de um formato que lembra ligeiramente um "S" esticado ou o contorno descendente de um dos lados de uma montanha. Porém, é uma curva análoga à da fórmula de função potencial vista aqui. Essas curvas, em fotografia e cinematografia são chamadas curvas H&D porque foram descritas pela primeira vez por Ferdinand Hurter e Vero C. Driffield. Os trechos próximos do branco absoluto e do preto absoluto são comprimidos, e a parte central da curva aproxima-se de uma reta. Essa parte central, retilínea, é descrita por uma função potencial e seu expoente também recebe o nome de gamma. O vídeo herdou esse termo dessas curvas.
Câmeras recentes efetuam um trabalho muito preciso sobre a curva de gamma: ao invés de utilizar um expoente único para a curva toda, como mostrado aqui, a curva é dividida em diversos segmentos e um ajuste acurado é feito para cada um deles. Existe também a possibilidade do controle individual de cada curva por canal RGB, aumentando ainda mais a qualidade da correção e ajuste da imagem.
Além do nome gamma correction, o termo gamma encoding também é empregado, porque a imagem é codificada, a partir de seu original, em uma forma diferente, como visto. E também o termo gamma compression, em referência à diminuição dos valores de variações de tonalidade em função da percepção do olho humano e de questões técnicas relacionadas à economia de espaço e à compatibilidade com o modo de reprodução dos monitores, como o CRT por exemplo. Analogamente, o modo de exibição de imagens efetuado pelo CRT (curva para baixo) recebe também os nomes gamma nonlinearity, decoding gamma e gamma expansion.
Ajustes de gamma também são encontrados em computação, para exibição de gráficos e imagens.
genlock (generator locking) o sinal de vídeo é formado através de linhas , que, desenhadas uma após a outra (pares e ímpares no sistema entrelaçado e uma após a outra no sistema progressivo ) formam os quadros . Existe uma cadência precisa para a montagem desses quadros; no sistema NTSC por exemplo ela é de 29,97 qps (quadros por segundo), informalmente referenciada como "30qps". Se tivermos uma câmera gravando determinadas imagens, ela estará gerando novos quadros nesse sistema a cada 1/30seg. (utilizando a notação informal). Se agora, ao lado desta câmera, tivermos uma outra, também gravando suas imagens, teremos 2 equipamentos gerando novas imagens a cada 1/30seg., porém nada irá garantir que quando uma câmera iniciar o desenho de um dos quadros de imagem, a outra também fará o mesmo, no mesmo instante. Quando o conteúdo gravado pelas duas câmeras é levado até uma NLE ilha de edição, o software irá fazer coincidir os tempos dos dois sinais, ou seja, os quadros terão início simultâneo tanto em um conteúdo (gravado na primeira câmera) como em outro (gravado na segunda câmera), independente do ponto onde cada conteúdo seja posicionado na timeline .
O "casamento" dos tempos dos sinais referido aqui nada tem a ver com o Timecode (utilizado ou não) e sim com o momento em que tem início o desenho de cada linha em cada quadro de cada conteúdo de vídeo combinado na timeline, como exemplifica o desenho abaixo, onde aparecem os campos par e ímpar (cujo conjunto forma um quadro), na sequência, um após o outro:
No entanto, se essas câmeras, sem que nenhum processo especial seja feito, estiverem conectadas a um switcher (ou mixer de vídeo ), os tempos dos dois sinais estarão (exceto por uma extrema coincidência) diferentes, como mostra o desenho abaixo:
Isso se refletirá na imagem no momento em que no switcher for acionada a mudança de câmera 1 para câmera 2. O sinal mixado dessa maneira será enviado a um dispositivo de saída, um televisor ou monitor . Quando este então for exibir a imagem, no momento da transição, o próximo quadro fora de sincronismo (fora de "fase") fará com que o circuito do televisor tente se ajustar ao novo padrão de tempo. Essa tentativa de ajuste, até que o mesmo seja obtido, traduz-se em um distúrbio na imagem; uma perda momentânea de estabilidade que não ocorre quando assistimos a um canal de TV e o próprio canal muda as cenas de determinado programa. O que acontece na verdade é muito similar ao "salto" que vemos quando mudamos no televisor, de um canal para outro.
No próprio switcher o problema de instabilidade pode ocorrer, se um efeito como o dissolve por exemplo é aplicado. Nesta situação, duas imagens com tempos de sincronismo diferentes são exibidas simultaneamente durante o tempo em que dura a transição, fazendo com que o sistema tente durante este tempo fazer o efeito e sincronizar as imagens, resultando em distúrbios como imagem rolando na tela, falhas na reprodução de cores e outros.
Esse problema pode ser contornado e solucionado de diversas formas. Uma delas, mais simples porém menos precisa, consiste em fazer com que o próprio mixer faça a sincronização dos quadros dos sinais que recebe. Ou então fazer o mesmo através de placas no computador que executam esta tarefa (genlock cards ou multi-function cards que possuam esta função). O que esta solução faz na verdade é armazenar temporariamente em uma memória interna uma fração de segundo de um ou de outro sinal de forma a sincronizá-los na saída. Um exemplo de mixer que executa esta função são os destinados ao segmento semi-profissional, como o exibido abaixo, da Edirol ou de fabricantes como a Videonics:
A outra forma consiste em fazer com que as câmeras já enviem o sinal para o switcher em fase, com os quadros sincronizados. É este processo que recebe o nome de genlock. Aqui os sinais não são atrasados (armazenados em memórias nos mixers para sincronismo) e os tempos são absolutamente iguais. É o processo utilizado no segmento profissional, principalmente em estúdios de TV.
Para que isto ocorra, as 2 câmeras no exemplo acima devem receber uma mesma referência de sincronismo externo, ou seja, necessitam ter a opção de aceitar sinais externos de sincronismo. Isto significa que precisam ter um conector especial de entrada denominado genlock.
As partes do sinal de vídeo relativas ao processo de sincronismo são os pulsos horizontal e vertical de sincronismo da imagem , o sincronismo dos quadros e o de cor da imagem. Esses sinais, juntamente com os da imagem propriamente dita formam o sinal de vídeo completo. Um sinal especial, com todas as informações de sincronismo, mas sem as imagens, é denominado black burst , e pode ser emitido por um aparelho gerador de sinais de sincronismo com a finalidade de sincronizar equipamentos de vídeo, não só câmeras como também decks de gravação. Neste caso, é este sinal que é enviado, através de um cabo, para cada câmera em separado, em uma das opções de sincronismo, para entrada através de seus conectores genlock como mostra o esquema abaixo:
Na ausência de um sinal do tipo black burst, um sinal normal de imagem, do tipo video composto pode ser utilizado em seu lugar. A opção sinal de vídeo composto pode ser utilizada para sincronizar ("genlocar") as duas câmeras entre si; neste caso somente uma delas necessita estar conectada ao gerador de sincronismo, como mostra o esquema abaixo:
A imagem abaixo mostra uma entrada do tipo genlock na câmera GY-HD250U da JVC. Geralmente câmeras comercializadas para uso em estúdio (ou em versão estúdio, quando mais de uma versão do mesmo equipamento está disponível) possuem o conector para genlock, como mostra a imagem abaixo:
O sinal de referência / black burst é normalmente enviado para a câmera através de cabos para sinais SDI (no modo SD (sinal de vídeo)) ou HD-SDI (no modo HD HD), com conectores do tipo BNC BNC. O mesmo tipo de conector pode ser utilizado para o tráfego de sinais de vídeo composto, na segunda opção, como indicado na câmera acima, na inscrição "AUX IN" ao lado do conector. Estúdios e aplicações profissionais preferem o uso do sinal SDI para genlock devido à sua robustez e possibilidade de maior comprimento de cabo do que os utilizados em vídeo composto. O conector BNC é utilizado também devido à sua robustez.
Assim, enquanto o recurso do timecode destina-se à edição off-line, o recurso do genlock destina-se à transmissão (ou gravação) ao vivo. Um sincroniza quadros, enquanto outro sincroniza o sinal a nível de pulsos de sincronismo. Se duas câmeras forem sincronizadas somente via timecode, apesar do contador de quadros ter o mesmo valor nas duas, não há garantia de que a montagem dos campos do sinal também esteja sincronizada, como mostra a ilustração a seguir:
O esquema mostra uma interrupção simultânea na gravação das 2 câmeras (feita através de um controle remoto unificado): apesar do timecode ser idêntico neste momento para ambas, uma delas está mais adiantada no desenho dos quadros do sinal de imagem. O corte ao vivo do sinal de uma delas para o sinal da outra, via um mixer sem compensação de buffer de memória como mostrado anteriormente, causará instabilidade no sinal.
GOP (Group Of Pictures) técnica de agrupamento de imagens empregada na compressão do tipo multi-frame, como por exemplo no formato MPEG2. Os quadros que compõem a imagem de vídeo são trabalhados em conjuntos, dentro dos quais ocorre o processo de compressão.
O primeiro quadro dentro de cada conjunto chama-se "I-frame" (abreviação de intra-frame) e é comprimido isoladamente, utilizando não o modo multi-frame e sim o intra-frame - daí seu nome. A partir deste quadro inicial, dois tipos de quadros são gerados: os quadros "B" e os quadros "P". Quadros "P" ("P-frame", de predicted-frame) são quadros que carregam as diferenças entre o primeiro quadro ("I-frame") do conjunto e os demais.

Assim, o conjunto de quadros que compõem a cena de um avião cruzando o céu azul é dividida em diversos sub-conjuntos. Para cada um desses subconjuntos, o primeiro quadro é comprimido no modo intra-frame e a seguir armazenado: é o "I-frame". A seguir, os quadros subsequentes ("P-frames") irão armazenar somente as diferenças em relação ao "I-frame", ou seja, as diferentes posições ocupadas pelos pixels correspondentes à imagem do avião em relação à suas posições no "I-frame". Com isso, na maioria dos casos (dependendo da "complexidade" da imagem), o espaço ocupado pelas informações do quadro será bem menor do que o ocupado pelo quadro completo "I-frame". Com isso, por exemplo 10 quadros comprimidos e armazenados no modo intra-frame irão ocupar mais espaço do que 10 quadros armazenados no modo multi-frame, porque aqui somente o primeiro (comprimido) é armazenado e os demais registram somente as diferenças em relação ao primeiro.
Para analisar as diferenças entre um quadro e outro, a imagem do primeiro quadro é dividida em pequenas áreas de somente 16x16 pixels cada, chamadas macroblocos. O processador procura cada macrobloco na segunda imagem, nas mesmas coordenadas X,Y. Se encontrá-lo e o mesmo for idêntico ao da primeira imagem, um vetor de mobilidade é marcado com o valor zero. Se não for idêntico, é porque ocorreu alguma modificação deste trecho da primeira imagem para a segunda.
Esta modificação pode ser devida a algum movimento ocorrido nos elementos da cena ou então porque uma nova cena completamente diferente da primeira apareceu. O processador tenta verificar a primeira hipótese, procurando o macrobloco a um pixel de distância à direita, à esquerda, acima e depois abaixo. Caso ainda não encontre correspondência, aumenta a distância da procura em 1 pixel, passando agora a procurar o macrobloco a 2 pixels de distância em todas as 4 direções. Se não houver correspondência, o processador vai aumentando a distância da procura, e se não encontrá-lo em nenhum local conclui que houve mudança de cena.
O processo é repetido para cada macrobloco (16x16 pixels) da primeira imagem, permitindo com isso gerar uma tabela de vetores indicando as mudanças de posição dos macroblocos entre uma imagem e outra, ou, em outras palavras, gerando as anotações do que mudou entre uma imagem e outra. Esta tabela de vetores chama-se Motion Compensation Block.
A seguir, com base nessa tabela de vetores e na imagem do "I-frame", o processador constrói um novo quadro de imagem, considerando somente os vetores iguais a zero, ou seja, somente os macroblocos que não se moveram da primeira imagem para a segunda são copiados do "I-frame" e montados neste novo quadro. Este quadro assim montado, como exemplifica a figura abaixo, será a base para a montagem do predicted-frame ( "P-frame"):

No exemplo, o quadro montado tem somente os pixels do céu, menos os do avião e menos os do trecho de céu antes encoberto pelo mesmo (o avião moveu-se para frente - no exemplo da figura acima foi considerado um deslocamento maior do que o que ocorreria na realidade entre um aquadro e outro para demonstrar com mais clareza o efeito). Em outras palavras, ele contém somente o que não mudou do primeiro para o segundo quadro.
A seguir este quadro montado é subtraído da segunda imagem: como ele contém o que ficou igual entre a primeira e a segunda imagem, o resultado desta subtração é exatamente a diferença entre as imagens. Este conteúdo então será o conteúdo do predicted-frame , como mostra a figura abaixo:

Ou seja, o "P-frame" contém somente os pixels correspondentes à imagem do avião e do pequeno trecho de céu atrás dele correspondente ao seu movimento.
Juntamente com cada "P-frame" gerado é armazenada sua tabela de vetores de deslocamento (gerada na primeira tarefa descrita acima, durante a comparação entre o "I-frame" e o quadro seguinte). Esta tabela recebe o nome de Motion Compensation Block. Armazenar somente os pixels que são diferentes entre uma e outra imagem e uma tabela de vetores para montagem das áreas que não sofreram alteração ocupa normalmente muito menos espaço do que se todos os pixels da segunda imagem fossem armazenados, daí a grande economia de espaço proporcionada por este método de compressão.
No momento da reprodução (play do vídeo gravado ou descompressão para permitir a edição-não-linear), o quadro de imagem correspondente ao "P-frame" é reconstruído da seguinte forma: o Motion Compensation Block é aplicado ao "I-frame" e com isso permite gerar um quadro com o que não mudou do "I-frame" para o quadro a ser regerado. A este quadro é então somado o conteúdo do "P-frame", permitindo assim a reconstrução da imagem completa.
Existe no entanto ainda outro tipo de quadro utilizado na compressão multi-frame: o "B-frame" (de bi-directionally frame). Após gerar sequências IPPPP ("I-frame" seguido de vários "P-frames"), ou seja, IPPPPIPPPP, e armazená-las na memória, o processador analisa as diferenças entre o primeiro "P" da sequência e o segundo "P" a seguir. Registra então estas informações, que ocupam menos espaço do que o primeiro "P-frame" isoladamente da sequência, e o substitui. Ou seja, a sequência torna-se IBPPPIPPPP. O segundo quadro é portanto representado com base nas informações do "I-frame" anterior e do "P-frame" posterior, ou seja, um processo nas duas direções (daí o nome bi-directionally frame).
O processo de substituição de "P-frames" por "B-frames" continua, comparando-se "I-frames" ou "P-frames" anteriores com "I-frames" ou "P-frames" posteriores, gerando a sequência IBBBPIBBBP, que ocupa ainda menos espaço do que a original IPPPPIPPPP.
Os quadros assim reduzidos em volume de informação (alguns completos, como os "I-frames", outros somente com diferenças e tabelas de vetores, como os "P-frames" e "B-frames") são tratados individualmente através do algoritmo DCT e a seguir comprimidos um a um através da compressão intra-frame.
O processo intra-frame permite o ajuste do nível de compressão a ser aplicado e é neste estágio do processo que diferentes taxas de compressão podem ser escolhidas, gerando vídeos comprimidos em MPEG2 com diferentes tamanhos, com diferentes bit rates (VBR, Variable Bit Rate).
Cada um dos conjuntos IBBBBP chama-se "GOP", abreviação de Group of Images. A maioria dos GOPs contém geralmente cerca de 15 quadros, podendo variar para menos quando alterações bruscas na imagem (cenas de ação por exemplo) acontecem. GOPs longos (15 quadros) são mais eficientes na compressão (ocupam menos espaço). No entanto, introduzem maiores problemas para a edição-não-linear (é necessário mais processamento para recuperar os quadros ao fazer-se por exemplo um simples corte: mais quadros são necessários para a reconstrução do que no GOP menor).
O formato HDV tem sua edição facilitada em relação à edição de formatos MPEG2 tradicionais por utilizar GOPs menores, com 6 quadros.
Existem dois tipos de GOPs, os abertos e os fechados. Supondo-se o exemplo acima

que mostra dois GOPs; se as informações codificadas no "B-frame" indicado acima, no final do primeiro GOP, forem dependentes do "P-frame" anterior a ele no mesmo GOP e do "I-frame" do GOP seguinte, como indicado abaixo

diz-se que este tipo de GOP é um GOP aberto. Caso contrário, se forem só dependentes de informações existentes dentro do próprio GOP, como mostrado abaixo

diz-se que este tipo de GOP é um GOP fechado. Um vídeo codificado com GOPs abertos introduz problemas na edição: se em algum corte for deletado o GOP da direita, no exemplo acima de GOPs abertos, será impossível o "B-frame" do GOP da esquerda conseguir reconstruir o último quadro da imagem correspondente a esse GOP. Para evitar este problema, os arquivos gerados no computador para edição MPEG2 codificam suas informações através de GOPs fechados e não abertos. Mesmo assim, problemas podem ocorrer se o corte for efetuado por exemplo no "P-frame" do primeiro GOP:

o primeiro GOP ficou incompleto, seus "B-frames" não podem mais reconstruir os quadros porque dependem da informação do "P-frame" eliminado. Assim, mesmo cortar dentro de um GOP fechado pode ser problemático.
Para alguns softwares de edição-não-linear estes problemas traduzem-se na falta de precisão na edição de conteúdos codificados em MPEG2. Outros softwares, notadamente os que trabalham com o formato HDV conseguem contornar estes problemas decodificando os GOPs de determinado trecho do vídeo para recriar todos os quadros do mesmo, efetuando o corte especificado e depois recodificando novamente toda a sequência para gerar novos GOPs. Isso exige no entanto muito mais processamento por parte do computador do que na edição de conteúdo comprimido no modo intra-frame, como na família DV de formatos.
Não existe um padrão para montagem dos quadros dentro dos GOPs, diferentes fabricantes adotam diferentes métodos, efetuando a codificação utilizando todos os tipos de frames (I, B e P), utilizando somente alguns deles (somente I e P) ou até mesmo somente (I). Neste último caso o conteúdo comprimido torna-se essencialmente semelhante ao comprimido com o modo intra-frame. No caso do MPEG2 por exemplo, se comprimido nesta forma, torna-se de alta qualidade e de fácil manipulação em edição-não-linear, porém perde bastante em economia de espaço.
Os GOPs gravados com somente um frame/GOP acima referidos (do tipo I), denominam-se short GOPs e os que contém mais de um frame (combinando os tipos I e/ou B e P) denominam-se long GOPs.
H.262 ... continua na página seguinte ( clique aqui )