Negócios

Como empresas podem garantir um processamento de linguagem natural eficaz

Ensinar a IA a entender e criar uma linguagem natural exige grandes conjuntos de dados. Se queremos que a IA fale de um jeito que represente nosso negócio, precisamos tomar cuidado.

Arte de

Mirko Cresta

Compartilhar artigo

Em 2020, pesquisadores do Google, Apple e da Universidade de Berkeley, entre outros, mostraram que podiam atacar um modelo de machine learning, o processamento de linguagem natural (PLN) modelo GPT-2. Eles fizeram com que o modelo exibisse informações pessoais, capazes de identificar uma pessoa, que foram memorizadas durante o treinamento.

Embora isso soe como uma brincadeira de polícia e ladrão para amantes de tecnologia, o que esses pesquisadores descobriram pode afetar empresas que estão usando PLN. Vou explicar como, por que e o que você pode fazer para deixar a sua IA mais segura.

O poder do processamento de linguagem natural

O PLN é parte de muitas aplicações presentes em nosso dia a dia, desde o recurso de autocompletar em smarphones a chatbots de atendimento ao cliente. É como as máquinas podem entender o que queremos dizer, mesmo com apenas algumas palavras, para nos oferecer sugestões relevantes.

O PLN está melhorando graças a grandes modelos de linguagem: Redes neurais gigantescas treinadas com bilhões de palavras que passam a impressão de uma linguagem humana. Eles aprendem em múltiplas camadas, incluindo gramática, sintaxe e fatos sobre o mundo. Escanear notícias podem ensinar esses modelos a responder perguntas como quem é o presidente do país ou a que indústria a sua empresa pertence.

Existem muitas formas de aplicar grandes modelos de linguagem. O Google usa seu modelo de linguagem BERT para melhorar a qualidade de busca. Serviços de tradução como o Google Translate e o Deepl usam grandes redes neurais. Grammarly usa PLN de base neural para melhorar suas sugestões de texto.

“A variedade de aplicações para modelos de linguagem é enorme”, afirma Alena Fenogenova, especialista em PLN na SberDevices, fabricante de dispositivos inteligentes. Ela trabalhou na versão russa do GPT-3 e em uma referência para avaliar a qualidade de modelos de linguagem russos. “Esses modelos podem nos ajudar a criar coisas como livros, anúncios ou códigos.”

A rede neural do OpenAI, a GPT-2, foi manchete por gerar notícias sobre cientistas descobrindo unicórnios nos Andes, provocando temores sobre desinformação automatizada. Desde então, a OpenAI lançou o GPT-3, afirmando que fizeram melhorias no GPT-2 em muitos aspectos. As pessoas estão usando o produto para coisas incríveis como simplificar documentos legais para um inglês mais simples. O GPT-3 pode até gerar um código para um site baseado em uma descrição por escrito. Técnicas de PLN também funcionam em linguagens de programação, o que leva a produtos como o Microsoft Intellicode e o Copilot da GitHub, que presta assistência a programadores.

Fenogenova completa: “Você pode treinar esses modelos em qualquer sequência, não só texto. Você pode estudar sequências genéticas ou fazer experimentos com música.”

Os dados são essenciais

Para criar esses modelos, você precisa ter acesso a um volume enorme de dados não processados, por exemplo, textos da internet para trabalhar com a linguagem natural ou código de programação para gerar código. Por isso, não é nenhuma coincidência que empresas como Google e o software de recurso de desenvolvimento GitHub estão entre os líderes de modelos de linguagem.

Empresas de tecnologia costumam tornar esses grandes modelos open source para que outros construam em cima deles, mas os dados usados para criar esses modelos e os dados in-house utilizados para aperfeiçoá-los podem afetar o comportamento do modelo.

O que eu quero dizer? Em machine learning, dados de baixa qualidade levam a uma performance ruim. Mas parece que um modelo de machine learning também consegue absorver bastante informação de dados não processados.

Preconceito entra, preconceito sai

Assim como sistemas de visão de computador replicam preconceitos, tendo problemas em reconhecer imagens de pessoas negras, por exemplo, modelos de PLN replicam preconceitos ocultos em nossa linguagem natural. Passando por um teste de analogia, um modelo simples decidiu que “homem” está para “programador de computador” assim como “mulher” está para “dona de casa”.

Modelos mais complexos, como modelos de linguagem, podem apresentar uma série de preconceitos, tanto escancarados quanto sutis. Pesquisadores do Allen Institute for AI descobriram que muitos modelos de linguagem geram textos falsos, cheios de preconceito e ofensivos graças aos dados de treinamento que receberam.

“Os dados em texto usados para treinar esses modelos são enormes, por isso podem conter preconceitos de gênero, raciais e outros “, afirma Fenogenova. “Se você pedir para um modelo terminar as frases, ‘um homem deve…’ e ‘uma mulher deve..’, os resultados provavelmente serão alarmantes”, completa.

O problema vai além de pesquisas. Em 2016, a Microsoft encerrou seu chatbot porque ele aprendeu a ser racista e misógino depois de um dia participando de conversas no Twitter. Em 2021, os criadores sul-coreanos de um chatbot do Facebook que tentava imitar um estudante universitário tiveram de encerrar o projeto quando ele começou a apresentar discurso de ódio. O comportamento de PLN pode também prejudicar reputações, além de perpetuar preconceitos.

Modelos que sabem demais

Em 2018, uma equipe de pesquisadores do Google acrescentou uma sequência teste “Meu número do seguro social é 078-05-1120” em um conjunto de dados, treinou um modelo de linguagem com essa sequência e depois tentaram extrair a informação. Eles descobriram que poderiam ter acesso ao número a não ser que “tomassem muito cuidado”. Eles desenvolveram uma métrica para ajudar pesquisadores e engenheiros a testar esse tipo de “memorização” em seus modelos. Pesquisadores e colegas checaram o trabalho em 2020, como mencionei anteriormente, testando o GPT-2 com comandos e descobriram que o modelo às vezes completava os comandos com dados pessoais.

Quando o GitHub lançou seu modelo de linguagem de programação Copilot, as pessoas fizeram piadas dizendo que o Copilot poderia completar senhas privadas do Secure Shell (SSH). (O Secure Shell conecta com segurança computadores remotos a uma rede insegura). Mas o que o Copilot acabou fazendo também era preocupante: Gerou códigos contendo senhas de API válidas, dando a usuários acesso a recursos restritos. Embora ainda existam questões sobre como essas chaves estavam em meio aos dados de treinamento do Copilot, demonstrando que existem possíveis consequências para a memorização de dados.

Fazendo com que PLN tenha menos preconceitos e seja mais consciente de questões de privacidade

Existem muitos riscos em grandes modelos de geração de texto. A princípio, não está claro como princípios de proteção de dados e legislação se aplicam a dados memorizados. Se alguém pede seus dados pessoais de uma empresa, eles têm direitos a modelos treinados usando esses dados? Como podemos verificar se um modelo não memorizou certas informações e como remover essa informação? O mesmo se aplica ao “direito de ser esquecido”, parte de algumas regulamentações de dados.

Outra questão é o copyright. Pesquisadores descobriram que o GPT-2 reproduziu uma página inteira de um livro da série Harry Potter a partir de alguns comandos. O Copilot apresenta algumas questões difíceis sobre quem escreveu o código que ele gera.

Se você quer usar esses modelos comercialmente, você pode tentar filtrar os dados procurando por preconceitos, mas isso pode ser uma tarefa impossível em razão da escala do conjunto de dados usados atualmente. Também não está muito claro o que deve ser filtrado. Até as frases mais neutras podem ser um motivo de preconceito de gênero quando o modelo gera um texto.

Alena Fenogenova

especialista em PLN, SberDevices

“Outra abordagem pode ser usar ‘censores’ automáticos para detectarem textos inapropriados antes de eles chegarem a usuários. Você também pode criar censores que detectam e filtram dados privados”, afirma Fenogenova. “Empresas também podem filtrar dados não processados para minimizar o risco de dados privados serem memorizados pelo modelo, mas é difícil limpar conjuntos de dados desse tamanho. Pesquisadores estão avaliando a ‘geração controlada’, na qual você guia o processo de geração do modelo já treinado.”

Apesar dessas questões, redes neurais com base em PLN continuarão a transformar como as empresas lidam com tudo quanto é texto, desde interações com o consumidor à criação de conteúdo de marketing. Prestar atenção nos riscos de modelos de linguagem e seus usos irão proteger você e seus clientes, além de ajudar a tornar seus projetos de PLN mais bem sucedidos.

 

Kaspersky Enterprise Security

Grandes empresas precisam de grande proteção. A Kaspersky desenvolveu soluções de cibersegurança para as necessidades de grandes empresas.

Sobre os autores

Vladislav is a data scientist for Kaspersky. He works on applying natural language processing to improve products and processes. He’s passionate about technology and human psychology, and how they both affect each other.