Em 2010, os donos da maior base de dados faciais do mundo – o Facebook – aprenderam a distinguir um retrato de uma paisagem: a mídia social se tornou capaz de procurar rostos em fotos e marcá-los. Às vezes, erros ocorriam. Quatro anos mais tarde, o Facebook atingiu uma taxa de 97% de acerto na hora de distinguir se uma foto tinha uma ou duas pessoas.
Esse avanço foi bastante significativo para o Facebook, ainda assim, o algoritmo ainda perde para o cérebro humano em 3% desses casos. Se alguém nos pedir para reconhecer alguém familiar em uma foto de baixa resolução, nos sairemos melhor do que os computadores. Mesmo com fotos tiradas de ângulos ruins.
Esse quadro não é nada comum, já que computadores tendem a ser mais precisos que seres humanos. Afinal, por que somos capazes de resolver esses desafios e como computadores tentam fazer o mesmo?
Nossos cérebros passaram por um treinamento duro
Descobriu-se que certas áreas do cérebro são voltadas unicamente para reconhecimento facial. Essa região é chamada de giro fusiforme, parte dos lóbulos temporal e occipital. Os seres humanos aprendem a distinguir rostos desde seu nascimento – crianças desenvolvem essa habilidade nos seus primeiros dias de vida. Já com quatro meses, bebês conseguem distinguir um tio do outro – as tias também, claro.
Olhos, maçãs do rosto, nariz, boca e sobrancelhas são as principais características do rosto que nos auxiliam a reconhecer as pessoas. A pele também é importante, principalmente a textura e a cor. É digno de nota que nosso cérebro tende a processar o rosto como um todo – não desviando foco para detalhes individuais. É por isso que podemos reconhecer as pessoas mesmo que elas escondam metade do rosto com um cachecol ou pedaço de papel. Contudo, se alguém faz uma montagem simples, unindo os rostos de duas pessoas famosas, os observadores podem precisar de um tempinho para reconhecer de quem se trata.
Veja só essa combinação de fotos de Brad Pitt e Angelina Jolie:
Desde o nascimento, nosso cérebro armazena rostos. Gradualmente, criamos um modelo básico e o utilizamos para o processamento facial. Colocando esse modelo no papel, ele pareceria com isso:
O processamento facial ocorre por meio da comparação da aparência de alguém com o modelo interno: se o nariz da pessoa é mais largo, os lábios mais cheios, o tom de pelo mais claro ou escuro, entre outros. Aqueles menos viajados tendem a ter a impressão de que pessoas de outras etnias são muito parecidas. Isso porque nosso modelo mental é adaptado às pessoas de nossa região.
A propósito, alguns animais podem distinguir feições, caso de cães e macacos. Apesar de o olfato ser uma das principais fontes de informação para nossos amigos peludos, imagens também podem auxiliar animais a reconhecer outros seres vivos. O interessante no caso do melhor amigo do homem é eles não apenas conseguirem distinguir nosso estado de espírito pelas nossas feições, mas também aprendem a sorrir.
Como computadores reconhecem rostos?
Qual é a conexão entre sorrisos humanos e processamento facial? Os dois são praticamente inseparáveis, já que qualquer expressão pode alterar nossos rostos ao ponto de eliminar qualquer possibilidade de reconhecimento, especialmente para algoritmos de computador.
Softwares são capazes de comparar duas fotos frontais e determinar se retratam a mesma pessoa. O funcionamento dessa solução lembra o processo de pintores de retratos: eles analisam os chamados pontos nodais no rosto humano. São esses pontos que determinam a individualidade dos nossos rostos. Métodos diferentes encontram de 80 a 150 pontos nodais em um único rosto.
Por exemplo, artistas e softwares analisam a distância entre os olhos, a largura do nariz, a profundidade dos olhos, ao formato das maçãs do rosto, o tamanho da mandíbula e por aí vai.
Quando você altera o nível dos olhos ou pede para o modelo virar o rosto, essas medidas se alteram. Como muitos algoritmos de processamento facial analisam imagens em apenas duas dimensões, o ponto de vista é crucial para um reconhecimento preciso. Quer continuar na surdina? Esconda seus olhos e maçãs do rosto com óculos escuros e cubra a boca e o queixo com um cachecol. Quando testamos o FindFace, ele foi capaz de reconhecer modelos apenas fotografados de frente.
Esse é o caminho para enganar serviços de reconhecimento facial que trabalham com “imagens chapadas”. Contudo tudo que é bom, dura pouco. Algoritmos mais eficientes já estão a caminho.
https://www.kaspersky.ru/blog/files/2016/04/rec.jpg
E agora?
Nosso cérebro se acostuma com o processamento de rostos a medida que crescemos. A habilidade de distinguir “nós” de “outros” é uma das habilidades necessárias para sobrevivência. Computadores modernos podem aprender como humanos e programar a si mesmos. Para melhorar resultados do processamento facial intermediado por máquinas, desenvolvedores utilizam algoritmos autodidatas, usando como dado de entrada centenas de retratos humanos que nem um anuário de colégio. Não é nada difícil encontrar essas imagens, já que estão disponíveis online, em mídias sociais, sites de hospedagem e armazenamento de fotos, entre outras fontes na web.
Reconhecimento facial se tornou mais eficiente quando algoritmos começaram a trabalhar com modelos 3D. Ao projetar uma grade no rosto e integrar com captura de vídeo da cabeça humana o programa entende que a aparência de alguém muda com o ângulo. A propósito, os modelos no cérebro humano também são tridimensionais. Apesar de essa tecnologia ainda estar em desenvolvimento, é possível encontrar no mercado soluções já registradas.
Os desafios de fazer as máquinas reconhecerem rostos #biometria
Tweet
Estudos relacionados com a cópia dessas feições também ganharam força. Reprodução de emoções de maneira realista é uma mina de ouro para a indústria de videogames – várias empresas se esforçam bastante para tornar seus personagens cada vez mais convincentes. A mesma tecnologia favorecerá bastante programas de reconhecimento facial – quando essas soluções conseguirem de fato copiar o original, serão capazes associar o sorriso bonito de uma moça em uma foto com outra imagem na rua, concluindo que se trata da mesma pessoa.
Fora os modelos 3D, desenvolvedores trabalham em diversas frentes. A empresa Identix criou uma tecnologia biométrica para reconhecimento facial chamada FaceIt Argus. Ela analisa a unicidade da textura da pele: linhas, poros, cicatrizes entre outros aspectos. O criador do FaceIt Argus alega que seu desenvolvimento identifica diferenças entre gêmeos idênticos, ainda não possível utilizando softwares de reconhecimento facial.
Especula-se que o sistema é capaz de ignorar os efeitos de expressões faciais (como piscar, franzir ou sorrir), possuindo ainda a capacidade de compensar por crescimento de barba, bigode e mudanças por conta de óculos. O acerto em identificações tende a aumentar entre 20 a 25% quando o FaceIt Argus é utilizado em conjunto com outros sistemas de processamento. Por outro lado, essa tecnologia falha quando usada em imagens com baixa resolução e pouca luz.
De qualquer forma, para compensar essa eventualidade, existe outra tecnologia. Cientistas de computação do Instituto Karlsruhe de Tecnologia (Alemanha) desenvolveram uma nova técnica, que reconhece retratos infravermelho de pessoas, mesmo que fotografados em luz ruim ou escuridão completa.
Essa tecnologia analisa assinaturas térmicas de seres humanos e as compara com imagens de fotos comuns com precisão máxima de 80%. Quanto maior o número de imagens disponíveis, maior a taxa de sucesso do algoritmo. Quando apenas uma imagem está disponível, a precisão cai para 55%.
Se você se pergunta o que pode ser feito com a evolução dessa tecnologia no que diz respeito a invasão de privacidade, recomendamos que você assista a minissérie britânica “Black Mirror”, especialmente o episódio “Quinze Milhões de Méritos“.