Não muito tempo atrás, escrevemos sobre métodos que Mordechai Guri e seus colegas da Universidade Ben-Gurion desenvolveram para extrair informações de um dispositivo não apenas desconectado da Internet, mas também fisicamente isolado na rede. Na conferência Black Hat USA 2020, outro pesquisador da Ben-Gurion University apresentou um relatório sobre um tópico relacionado. Ben Nassi falou sobre um método de espionagem visual que ele e seus colegas chamam de Lamphone.
Falaremos abaixo sobre o funcionamento do Lamphone, mas vamos começar com uma pequena digressão sobre a história do problema.
Como é possível ver um som?
Uma tecnologia bem conhecida para gravar som remotamente usando os chamados métodos visuais é o microfone a laser. Essa técnica é bastante direta.
As pessoas que estão escutando uma conversa direcionam um feixe de laser operando na faixa do infravermelho (ou seja, invisível para o olho humano) em uma superfície adequada (normalmente o vidro da janela) na sala onde a conversa está ocorrendo. O feixe é refletido na superfície e atinge o receptor. As ondas sonoras criam vibrações na superfície do objeto, que por sua vez mudam o comportamento do feixe de laser refletido. O receptor registra as alterações, que são eventualmente convertidas em uma gravação de som da conversa.
A tecnologia está em uso desde a Guerra Fria e apareceu em muitos filmes de espionagem. Você provavelmente já viu isso retratado em algum deles. Várias empresas produzem dispositivos prontos para espionagem a laser, e seu alcance declarado de operação se estende de 500 até 1.000 metros. No entanto, para quem está preocupado em se tornar alvo da escuta do laser, temos duas boas notícias: primeiro, os microfones a laser são (em) muito (/em) caros; e, segundo, os fabricantes vendem microfones a laser apenas para agências governamentais (ou assim eles afirmam).
No entanto, de acordo com Nassi, a natureza ativa dos microfones a laser é uma desvantagem séria. Para que essa forma de espionagem funcione, você precisa “iluminar” uma superfície com um feixe laser, e isso significa que um detector de infravermelho pode descobri-la.
Vários anos atrás, um grupo de pesquisadores do Instituto de Tecnologia de Massachusetts propôs um método alternativo de “gravação visual” que era completamente passivo. A ideia deles era basicamente a mesma: ondas sonoras criam vibrações na superfície de um objeto. As vibrações, é claro, podem ser registradas.
Para registrar as vibrações, os pesquisadores usaram uma câmera de alta velocidade a vários milhares de quadros por segundo. Ao comparar os frames da câmera (com a ajuda de um computador), eles conseguiram replicar o som da sequência de frames do vídeo.
Esse método também tem uma desvantagem e das grandes. A quantidade de recursos de computação necessária para converter a enorme quantidade de informações visuais da câmera de alta velocidade em som foi extraordinária. Mesmo usando uma estação de trabalho extremamente poderosa, os pesquisadores do MIT precisaram de 2 a 3 horas para analisar uma gravação de vídeo de 5 segundos, então essa abordagem claramente não é a mais adequada para capturar conversas em tempo real.
Como o Lamphone funciona
Nassi e seus colegas criaram uma nova técnica de “espionagem visual” que eles chamam de Lamphone. A ideia principal do método é usar uma lâmpada (daí o nome da técnica) como um objeto a partir do qual você pode capturar as vibrações causadas pelo som.
Uma lâmpada não é apenas um objeto muito comum, mas também é brilhante. Portanto, alguém que usa as vibrações de uma lâmpada não precisa desperdiçar recursos de computação analisando mudanças extremamente sutis na imagem. Tudo o que eles precisam fazer é direcionar um poderoso telescópio para a lâmpada. O telescópio direciona o fluxo de luz da lâmpada para um sensor eletro-óptico.
A lâmpada não emite luz em diferentes direções de maneira perfeitamente uniforme (curiosamente, o desnível também varia entre os diferentes tipos de lâmpadas, sendo bastante alto para lâmpadas incandescentes e LED, mas muito menor para lâmpadas fluorescentes). Este desnível faz com que as vibrações da lâmpada (causadas pelas ondas sonoras) alterem ligeiramente a intensidade do fluxo de luz que o sensor eletro-óptico captura. E essas mudanças são suficientemente perceptíveis para registro. Tendo registrado as alterações e feito uma série de transformações simples, os pesquisadores foram capazes de restaurar o som resultante da “gravação de luz”.
Para testar o método, os pesquisadores instalaram um dispositivo de escuta em uma passarela a 25 metros da janela da sala de testes, na qual o som era reproduzido por meio de um alto-falante. Ao apontar um telescópio para uma lâmpada na sala, os pesquisadores foram capazes de registrar as variações de luz e convertê-las em uma gravação de som.
As gravações resultantes revelaram-se bastante compreensíveis. Por exemplo, o Shazam identificou com sucesso as canções de teste “Let It Be” dos Beatles e “Clocks” do Coldplay, e o serviço de reconhecimento de voz do Google transcreveu corretamente as palavras de Donald Trump de um de seus discursos de campanha.
O Lamphone é uma ameaça prática?
Nassi e seus colegas tiveram sucesso no desenvolvimento de um método verdadeiramente funcional de “escuta visual”. Mais importante, o método é completamente passivo e, portanto, não pode ser registrado por nenhum detector.
Observe também que, ao contrário do método pioneiro dos pesquisadores do MIT, os cálculos para decodificar gravações de Lamphone são extremamente simples. Como o processamento não exige grandes recursos de computação, o Lamphone pode ser usado em tempo real.
No entanto, Nassi admite que, durante o experimento, o som na sala de teste foi tocado em um volume muito alto. Portanto, por enquanto, os resultados do experimento podem ser principalmente de interesse teórico. Por outro lado, não devemos subestimar a simplicidade dos métodos usados para converter a “gravação luminosa” em som. A técnica pode ser ainda mais refinada usando algoritmos de aprendizado de máquina, por exemplo, que se destacam nesses tipos de tarefas.
No momento, os pesquisadores avaliam que a viabilidade de aplicar essa técnica na prática não é nem extremamente difícil, muito menos fácil, mas em algum ponto intermediário. No entanto, eles preveem que o método se tornará potencialmente mais prático – se alguém puder aplicar algoritmos sofisticados de conversão das leituras do sensor eletro-óptico em gravações de som.