Além dos vários eventos geopolíticos que definiram 2022, é possível dizer que foi o ano da IA, pelo menos no nível tecnológico. Eu também posso começar confessando: até muito recentemente, sempre que me perguntavam sobre IA em cibersegurança, eu a considerava uma vaporware. Sempre soube que o aprendizado de máquina tinha muitas aplicações no mundo real; mas para nós, no mundo da infosec, a IA só foi usada nos lançamentos de produtos mais complicados. Para mim, ser “alimentado por IA” era apenas uma maneira elegante de os fornecedores dizerem “não temos base de conhecimento ou telemetria existente, então criamos algumas heurísticas”. Continuo convencido de que, em mais de 95% dos casos, os produtos resultantes também continham pouca IA realmente aplicada. Mas o fato é que, enquanto as equipes de marketing estavam ocupadas colocando adesivos de “IA” em qualquer produto que envolvesse o cálculo de k-means como parte de sua operação, o verdadeiro campo de IA estava em desenvolvimento.
O dia do acerto de contas para mim chegou quando experimentei o DALL-E 2 pela primeira vez (e logo depois, o Midjourney). Ambos os projetos permitem gerar imagens com base em descrições textuais e já causaram grande turbulência no mundo da arte.
Então, em dezembro do ano passado, o ChatGPT conquistou o mundo. Simplificando, trata-se de um chatbot. Presumo que a maioria das pessoas já tenha, a essa altura, experimentado o serviço. Mas se ainda não foi o caso, sugiro fortemente que o faça. Nenhuma palavra pode transmitir o quanto ele melhora em relação aos projetos anteriores, e ouvir sobre isso não é suficiente. Você tem que experimentar para ter uma ideia de tudo o que está por vir…
Modelos de linguagem
Nas palavras de Arthur C. Clarke, “qualquer tecnologia suficientemente avançada é indistinguível da magia”. Adoro como a tecnologia às vezes pode trazer esse sentimento de admiração para nossas vidas, mas esse sentimento infelizmente atrapalha quando tentamos pensar sobre as implicações ou limites de um novo avanço. Por esse motivo, acho que primeiro precisamos dedicar algum tempo para entender como essas tecnologias funcionam nos bastidores.
Vamos começar com o ChatGPT. É um modelo de linguagem; em outras palavras, é uma representação da nossa linguagem. Como é o caso de muitos grandes projetos de aprendizado de máquina, ninguém sabe realmente como esse modelo funciona (nem mesmo o OpenAI, seus criadores). Sabemos como o modelo foi criado, mas é muito complexo para ser entendido formalmente. O ChatGPT, sendo o maior modelo de linguagem (público?) até hoje, tem mais de 175 bilhões de parâmetros. Para entender o que isso significa, imagine uma máquina gigante com 175 bilhões de botões que você pode ajustar. Toda vez que você envia um texto para o ChatGPT, esse texto é convertido em uma configuração para cada um desses botões. E, finalmente, a máquina produz a saída (mais texto) com base em sua posição. Há também um elemento de aleatoriedade, para garantir que a mesma pergunta nem sempre leve exatamente à mesma resposta (mas isso também pode ser ajustado).
Esta é a razão pela qual percebemos esses modelos como caixas-pretas: mesmo que você passasse a vida estudando a máquina, não está claro se você seria capaz de descobrir o propósito de um único botão (muito menos de todos eles). Ainda assim, sabemos o que a máquina faz porque conhecemos o processo pelo qual ela foi gerada. O modelo de linguagem é um algoritmo que pode processar texto e foi alimentado com muitos conteúdos durante sua fase de treinamento: toda a Wikipedia, páginas da web, livros etc. Isso permitiu a criação de um modelo estatístico que conhece a probabilidade de ter uma palavra que segue a outra. Se eu disser “rosas são vermelhas, violetas são”, você pode adivinhar com um grau relativamente alto de confiança que a próxima palavra será “azuis”. Em poucas palavras, é assim que qualquer modelo de linguagem funciona. Para tal modelo, terminar sua frase não é diferente de adivinhar qual sequência de palavras provavelmente seguirá sua pergunta com base em tudo o que foi lido antes. No caso do ChatGPT, havia mais uma etapa envolvida – chamada de ajuste fino supervisionado. Os “treinadores da IA” humanos tiveram inúmeras conversas com o bot e sinalizaram todas as respostas consideradas problemáticas (imprecisas, tendenciosas, racistas, etc.) para que não fossem repetidas.
Se você não consegue entender a IA, compreenda como matemática ou estatística: o objetivo desses modelos é a previsão. Ao usar o ChatGPT, desenvolvemos muito facilmente a sensação de que a IA “sabe” as coisas, pois é capaz de retornar informações contextualmente relevantes e específicas do domínio para consultas que vê pela primeira vez. Mas ela não entende o que qualquer uma das palavras significa: só é capaz de gerar mais texto que “parece” ser uma continuação natural do que foi dado. Isso explica por que o ChatGPT pode apresentar um argumento filosófico complexo, mas muitas vezes tropeça na aritmética básica: é mais difícil prever o resultado do cálculo do que a próxima palavra em uma frase.
Além disso, não tem memória: seu treinamento terminou em 2021 e o modelo está congelado. As atualizações vêm na forma de novos modelos (por exemplo, na versão GPT-4 prevista para 2024) treinados em novos dados. Na verdade, o ChatGPT nem se lembra das conversas que você está tendo com ele: o histórico recente do bate-papo é enviado junto com qualquer novo texto que você digita para que o diálogo pareça mais natural.
Se isso se qualifica como “inteligência” (e se isso é significativamente diferente da inteligência humana) será o assunto de acalorados debates filosóficos nos próximos anos.
Modelos de difusão
Ferramentas de geração de imagens como Midjourney e DALL-E são baseadas em outra categoria de modelos. Seu procedimento de treinamento, obviamente, se concentra na geração de imagens (ou coleções de pixels) em vez de texto. Na verdade, são necessários dois componentes para gerar uma imagem com base em uma descrição textual, e o primeiro é muito intuitivo. O modelo precisa usar uma maneira de associar palavras a informações visuais, por isso é alimentado com coleções de imagens legendadas. Assim como no ChatGPT, acabamos com uma máquina gigante e inescrutável que é muito boa em combinar imagens com dados textuais. A máquina não tem ideia de como é o rosto de Brad Pitt, mas se já viu fotos suficientes dele, sabe que todas compartilham propriedades comuns. E se alguém enviar uma nova foto de Brad Pitt, o modelo é capaz de reconhecê-lo e dizer “sim, é ele de novo”.
A segunda parte, que achei mais surpreendente, é a possibilidade de realçar as imagens. Para isso, utilizamos um “modelo de difusão”, treinado em imagens limpas às quais gradualmente se adiciona ruído (visual) até se tornarem irreconhecíveis. Isso permite que o modelo aprenda a correspondência entre uma imagem borrada e de baixa qualidade e sua contraparte de resolução mais alta – novamente, em nível estatístico – e recrie uma boa imagem a partir de uma imagem ruidosa. Na verdade, existem produtos com inteligência artificial dedicados a remover o ruído de fotos antigas ou aumentar sua resolução.
Juntando tudo, somos capazes de sintetizar imagens: partimos de um ruído aleatório e o “melhoramos” gradualmente, garantindo que ele contenha as características que correspondem ao prompt do usuário (uma descrição muito mais detalhada dos componentes internos do DALL-E pode ser encontrada aqui).
Os problemas errados
O surgimento de todas as ferramentas mencionadas neste artigo gerou uma forte reação do público, algumas das quais muito negativas. Existem preocupações legítimas sobre a irrupção abrupta da IA em nossas vidas, mas, na minha opinião, grande parte do debate atual se concentra nas questões erradas. Vamos abordá-los primeiro, antes de passar para o que eu acho que deveria ser o cerne da discussão em torno da IA.
DALL-E e Midjourney estão roubando artistas reais
Em algumas ocasiões, vi essas ferramentas descritas como programas que fazem retalhos de imagens que já viram e depois aplicam uma espécie de filtros que permitem imitar o estilo do artista solicitado. Qualquer um que faça tal afirmação ou é ignorante das realidades técnicas dos modelos subjacentes, ou está argumentando de má-fé.
Conforme explicado acima, o modelo é completamente incapaz de extrair imagens ou mesmo formas simples das imagens nas quais é treinado. O melhor que ele pode fazer é extrair insumos matemáticos.
Não há como negar que muitos trabalhos protegidos por direitos autorais foram usados na fase de treinamento sem o consentimento explícito dos autores originais, e talvez haja uma discussão a ser feita sobre isso. Mas também vale ressaltar que os artistas humanos seguem exatamente o mesmo processo durante seus estudos: eles copiam pinturas de mestres e se inspiram nas obras de arte que encontram. E o que é a inspiração, senão a capacidade de capturar a essência de uma obra de arte combinada com o desejo de reinvenção?
DALL-E e Midjourney apresentam uma inovação no sentido de que são teoricamente capazes de obter inspiração de todas as imagens produzidas na história humana (e, provavelmente, de qualquer uma que produzirem a partir de agora), mas é uma mudança apenas de escala – não na natureza.
A IA torna as coisas muito fáceis
Tal crítica geralmente implica que a arte deve ser difícil. Essa sempre foi uma noção surpreendente para mim, já que o observador de uma obra de arte geralmente tem pouca ideia de quanto (ou quão pouco) esforço foi necessário para produzi-la. Não é um debate novo: anos após o lançamento do Photoshop, várias pessoas ainda argumentam que a arte digital não é arte real. Existem outros que dizem que usar o Photoshop requer habilidade, mas acho que eles também estão perdendo o foco. Quanta habilidade Robert Rauschenberg exigiu para colocar tinta branca em uma tela? Quanta prática musical você precisa antes de poder executar o infame 4’33” de John Cage?
Mesmo que introduzíssemos a habilidade como critério para a arte, de que forma traçaríamos a linha de separação? Quanto esforço é esforço suficiente? Quando a fotografia foi inventada, Charles Baudelaire chamou-a de “o refúgio de todo aspirante a pintor, de todo pintor muito mal dotado ou muito preguiçoso para terminar seus estudos” (e ele não estava sozinho nessa avaliação). Acontece que ele estava errado.
ChatGPT ajuda cibercriminosos
Com o surgimento da IA, veremos ganhos de produtividade em todos os setores. No momento, vários meios de comunicação e fornecedores estão fazendo tudo o que podem para pegar carona no hype do ChatGPT, que leva ao clickbait mais vergonhoso da história recente. Como escrevemos anteriormente, o ChatGPT pode ajudar os criminosos a redigir e-mails de phishing ou escrever códigos maliciosos – como se essas coisas já tivessem encontrado qualquer fator limitante. As pessoas familiarizadas com a existência do GitHub sabem que a disponibilidade de malware não é um problema para agentes mal-intencionados, e qualquer pessoa preocupada em acelerar o desenvolvimento deveria ter levantado essas preocupações quando o Copilot foi lançado.
Sei que é bobagem desmascarar um frenesi da mídia nascido de considerações econômicas mesquinhas em vez de preocupações genuínas, mas o fato é: a IA terá um tremendo impacto em nossas vidas e há questões reais a serem abordadas. Todo esse barulho só está atrapalhando.
É um caminho sem volta
Não importa como você se sente sobre todas as ferramentas com tecnologia de IA lançadas em 2022, saiba que outras irão aparecer. Se você acredita que o campo será regulamentado antes de ficar fora de controle, pense novamente: a resposta política que testemunhei até agora foi principalmente governos decidindo alocar mais investimentos em pesquisas relacionadas à IA, enquanto eles ainda podem recuperar o atraso. Ninguém no poder tem interesse em desacelerar isso.
A quarta revolução industrial
A IA levará a – ou provavelmente já levou a – ganhos de produtividade. Quão grandes eles são/serão é difícil imaginar ainda. Se o seu trabalho consiste em produzir texto semi-inspirado, você deve se preocupar. Isso se aplica se você também for um designer visual trabalhando por comissão: sempre haverá clientes que desejam o toque humano, mas a maioria optará pela opção mais barata. Mas isso não é tudo: engenheiros reversos, advogados, professores, médicos e muitos outros devem esperar que suas profissões sejam profundamente modificadas.
Uma coisa a ter em mente é que o ChatGPT é um chatbot de uso geral. Nos próximos anos, modelos especializados surgirão e avançarão algumas funcionalidades do ChatGPT em casos de uso específicos. Em outras palavras, se o ChatGPT não tiver um progresso contínuo, é provável que um novo produto de IA lançado nos próximos cinco anos o faça. Nossos trabalhos, todos os nossos trabalhos, envolverão a supervisão da IA e a garantia de que sua saída esteja correta, em vez de fazê-lo nós mesmos.
É possível que a IA atinja uma parede de complexidade e não progrida mais – mas depois de errar várias vezes, aprendi a não apostar contra o campo. A IA mudará o mundo tanto quanto a máquina a vapor? Devemos esperar que não, porque mudanças brutais nos meios de produção mudam a estrutura da sociedade humana, e isso nunca acontece pacificamente.
Viés e propriedade da IA
Muito já foi dito sobre vieses nas ferramentas de IA e não vou voltar a isso. Um assunto mais interessante é a maneira como o OpenAI combate esses vieses. Como mencionado acima, o ChatGPT passou por uma fase de aprendizado supervisionado, na qual o modelo de linguagem basicamente aprende a não ser extremista. Embora esse seja um recurso desejável, não se pode deixar de notar que esse processo efetivamente ensina um novo viés ao chatbot. As condições desta fase de ajuste fino são turvas: quem são os heróis anônimos que sinalizam as respostas “ruins”? Trabalhadores mal pagos em países do terceiro mundo ou engenheiros do Vale do Silício sob efeitos “otimizadores”? (Spoiler: é a primeira opção.)
Também vale lembrar que os produtos de IA não funcionarão para o bem comum. Os vários produtos projetos no momento são de propriedade de empresas que sempre serão movidas, antes de tudo, por lucros que podem ou não se sobrepor aos melhores interesses da humanidade. Assim como uma mudança nos resultados de pesquisa do Google tem um efeito mensurável nas pessoas, os companheiros ou consultores de IA terão a capacidade de influenciar os usuários de maneiras sutis.
E agora?
Como a questão não parece mais ser se a IA está entrando em nossas vidas, mas quando, devemos pelo menos discutir como podemos nos preparar para isso.
Devemos ser extremamente cautelosos com o ChatGPT (ou qualquer um de seus descendentes) acabando em uma posição em que está tomando decisões sem supervisão: o ChatGPT é extremamente bom em demonstrar confiança, mas ainda assim erra. No entanto, haverá grandes incentivos para cortar custos e tirar os humanos do circuito.
Também prevejo que, na próxima década, a maior parte de todo o conteúdo disponível online (primeiro texto e imagens, depois vídeos e videogames) será produzida com IA. Também não acho que devemos contar muito com a sinalização automática de tal conteúdo funcionando de maneira confiável – teremos apenas que permanecer críticos com o que lemos online e enfrentar dez vezes mais ruído. Acima de tudo, devemos ter cuidado com os modelos especializados que estão surgindo em nosso caminho. O que acontece quando um dos Big Four treina um modelo com o código tributário e começa a perguntar sobre brechas? O que acontece quando alguém dos militares usa o ChatGPT e diz: “sim, quero um pouco disso nos meus drones”?
A IA pode ser incrível: assumirá muitas tarefas chatas, trará novas habilidades ao alcance de todos e dará início a novas formas de arte (sim). Mas a IA também pode ser terrível. Se a história servir de indicação, ela levará a uma maior concentração de poder e nos empurrará ainda mais para o caminho do tecnofeudalismo. Vai mudar a forma como o trabalho é organizado e talvez até a nossa relação com o acervo de conhecimento da humanidade. Nós não vamos ter uma palavra a dizer sobre isso.
A caixa de pandora agora está aberta.
Disclaimer: o texto expressa as opiniões pessoais do autor e podem não refletir a posição oficial da Kaspersky (a empresa).