Como a IA pode vazar seus dados pessoais

As redes neurais geradoras de imagens estão em toda parte. Que riscos elas trazem à privacidade?

As redes neurais revelam as imagens usadas para treiná-las

Suas redes (neurais) estão vazando dados

Pesquisadores de universidades nos Estados Unidos e na Suíça, em colaboração com o Google e a DeepMind, publicaram um artigo mostrando como dados podem vazar de sistemas de geração de imagens que usam os algoritmos de aprendizado de máquina (machine-learning) DALL-E, Imagen ou Stable Diffusion. Todos esses recursos funcionam da mesma maneira para o usuário: você digita uma consulta de texto específica, por exemplo, “uma poltrona em forma de abacate”, e obtém uma imagem gerada como resposta.

Imagem gerada pela rede neural Dall-E

Imagem gerada pela rede neural Dall-E. Fonte

Esses sistemas são treinados em grande quantidade (dezenas ou centenas de milhares) de imagens com descrições pré-preparadas. A ideia por trás dessas redes neurais é que, ao consumir uma enorme quantidade de dados de treinamento, elas podem criar imagens novas e únicas. No entanto, a principal conclusão do novo estudo é que essas imagens nem sempre são tão únicas. Em alguns casos, é possível forçar a rede neural a reproduzir quase exatamente uma imagem original usada anteriormente para treinamento. E isso significa que as redes neurais podem inadvertidamente revelar informações privadas.

Imagem gerada pela rede neural Stable Diffusion (direita) e a imagem original do conjunto de treinamento (esquerda)

Imagem gerada pela rede neural Stable Diffusion (direita) e a imagem original do conjunto de treinamento (esquerda). Fonte

Mais dados para a “divindade dos dados”

O resultado de um sistema de aprendizado de máquina em resposta a uma consulta pode parecer mágica para um não especialista: “uau! é como um robô que sabe de tudo!” Mas não há mágica nenhuma, na verdade…

Todas as redes neurais funcionam mais ou menos da mesma maneira: é criado um algoritmo, treinado em um conjunto de dados, por exemplo, uma série de fotos de gatos e cachorros, com uma descrição do que exatamente é representado em cada imagem. Após a fase de treinamento, o algoritmo recebe uma nova imagem e deve descobrir se é um gato ou um cachorro. A partir desse começo tímido, os desenvolvedores de tais sistemas passaram para um cenário mais complexo: o algoritmo treinado com muitas fotos de gatos cria a imagem de um animal de estimação que nunca existiu sob demanda. Tais experimentos são realizados não só com imagens, mas também com texto, vídeo e até voz: já escrevemos sobre o problema com os deepfakes (vídeos alterados digitalmente, principalmente de políticos ou celebridades, que parecem dizer coisas que nunca fizeram).

Para todas as redes neurais, o ponto de partida é um conjunto de dados de treinamento: as redes neurais não podem inventar novas entidades do nada. Para criar a imagem de um gato, o algoritmo deve estudar milhares de fotografias ou desenhos reais desse animal. Há muitos argumentos para manter esses conjuntos de dados confidenciais. Alguns deles são de domínio público; outros conjuntos de dados são propriedade intelectual da empresa desenvolvedora, que investiu tempo e esforço consideráveis para conectá-los na esperança de obter uma vantagem competitiva. Outros ainda, por definição, constituem informações confidenciais. Por exemplo, há experimentos para usar redes neurais para diagnosticar doenças com base em raios X e outros exames médicos. Isso significa que os dados de treinamento algorítmicos contêm os dados reais de saúde de pessoas reais, que, por motivos óbvios, não devem cair em mãos erradas.

TI difusa

Embora os algoritmos de aprendizagem de máquina pareçam os mesmos para quem está de fora, eles são na verdade bem diferentes. No artigo científico, os pesquisadores prestam atenção especial aos modelos de difusão de aprendizagem de máquina. Eles funcionam assim: os dados de treinamento são distorcidos (imagens de pessoas, carros, casas etc.), adicionando-se ruído. E a rede neural é então treinada para restaurar essas imagens ao seu estado original. Esse método permite gerar imagens de qualidade satisfatória, mas uma desvantagem potencial (em comparação com algoritmos em redes concorrentes generativas, por exemplo) é sua maior tendência ao vazamento de dados.

Os dados originais podem ser extraídos de pelo menos três maneiras diferentes: primeiro, usando consultas específicas para forçar a rede neural a produzir, não algo único, gerado com base em milhares de imagens, mas uma imagem de fonte específica. Segundo, a imagem original pode ser reconstruída, mesmo se apenas uma parte dela estiver disponível. Terceiro, é possível simplesmente estabelecer se uma imagem específica está ou não contida nos dados de treinamento.

Muitas vezes, as redes neurais são… preguiçosas e, em vez de produzir uma nova imagem, elas produzem do conjunto de treinamento, se esse contiver várias duplicatas da mesma imagem. Além do exemplo acima com a foto de Ann Graham Lotz, o estudo fornece alguns outros resultados semelhantes:

Linhas ímpares: imagens originais. Linhas pares: imagens geradas pelo Stable Diffusion v1.4.

Linhas ímpares: imagens originais. Linhas pares: imagens geradas pelo Stable Diffusion v1.4. Fonte

Se uma imagem for duplicada no conjunto de treinamento mais de cem vezes, há uma chance muito alta de seu vazamento na sua forma quase original. No entanto, os pesquisadores demonstraram maneiras de recuperar imagens de treinamento que só apareceram uma vez no conjunto original. Esse método é muito menos eficiente: das quinhentas imagens testadas, o algoritmo recriou aleatoriamente apenas três delas. O método mais elaborado de atacar uma rede neural envolve recriar uma imagem original usando apenas um fragmento dela como entrada.

Os pesquisadores pediram à rede neural que completasse a imagem, depois de excluir parte dela. Isso pode ser feito para determinar com bastante precisão se uma imagem específica estava no conjunto de treinamento. Se estivesse, o algoritmo de aprendizado de máquina gerou uma cópia quase exata da foto ou desenho original.

Os pesquisadores pediram à rede neural que completasse a imagem, depois de excluir parte dela. Isso pode ser feito para determinar com bastante precisão se uma imagem específica estava no conjunto de treinamento. Se estivesse, o algoritmo de aprendizado de máquina gerou uma cópia quase exata da foto ou desenho original. Fonte

Nesse ponto, focar na questão das redes neurais e dos direitos autorais.

Quem roubou de quem?

Em janeiro de 2023, três artistas processaram os criadores de serviços de geração de imagens que usavam algoritmos de aprendizagem de máquina. Eles alegaram (justificadamente) que os desenvolvedores treinaram as redes neurais com imagens coletadas online, sem nenhum respeito pelos direitos autorais. Uma rede neural pode de fato copiar o estilo de um artista em particular e, assim, privá-lo de renda. O artigo sugere que, em alguns casos, os algoritmos podem, por vários motivos, se envolver em plágio total, gerando desenhos, fotografias e outras imagens quase idênticas ao trabalho de artistas reais.

O estudo faz recomendações para fortalecer a privacidade do conjunto de treinamento original:

  • Livre-se das duplicatas.
  • Reprocessar imagens de treinamento, por exemplo, adicionando ruído ou alterando o brilho; isso torna o vazamento de dados menos provável.
  • Testar o algoritmo com imagens de treinamento especiais e, a seguir, verifique se o resultado não as reproduz inadvertidamente com precisão.

E agora?

A ética e a legalidade da arte generativa certamente contribuem para um debate interessante, no qual deve ser buscado um equilíbrio entre os artistas e os desenvolvedores de tecnologia. Por um lado, os direitos autorais devem ser respeitados. Por outro, a arte por computador é mesmo tão diferente da humana? Em ambos os casos, os criadores se inspiram nos trabalhos de colegas e competidores.

Mas vamos voltar ao ponto e falar sobre segurança. O documento fornece um conjunto específico de fatos sobre apenas um modelo de aprendizagem de máquina. Estendendo o conceito para todos os algoritmos semelhantes, chegamos a uma situação interessante. Não é difícil imaginar um cenário em que um assistente inteligente de um operador de telefonia móvel forneça informações corporativas confidenciais em resposta a uma consulta do usuário: afinal, essas informações estavam nos dados de treinamento. Ou, por exemplo, uma consulta astuta engana uma rede neural pública para gerar uma cópia do passaporte de alguém. Os pesquisadores enfatizam que tais problemas permanecem teóricos, por enquanto.

Mas outros problemas já são realidade. Nesse exato momento, a rede neural geradora de texto ChatGPT está sendo usada para escrever código mal-intencionado real que (às vezes) funciona. E o GitHub Copilot está ajudando os programadores a escrever código, usando uma enorme quantidade de software de código aberto como entrada. E a ferramenta nem sempre respeita os direitos autorais e a privacidade dos autores cujo código acabou sendo usado no extenso conjunto de dados de treinamento. À medida que as redes neurais evoluem, os ataques a elas também evoluem, com consequências que ninguém ainda é capaz de entender completamente.

Dicas