Como instalar e usar um assistente de IA no computador

Acesse todas as vantagens do ChatGPT, Copilot e Midjourney localmente, garantindo que seus dados permaneçam seguros e não sejam transmitidos pela Internet.

Muitas pessoas já estão explorando redes neurais generativas e incorporando-as em suas rotinas diárias de trabalho. Por exemplo, quase 60% dos americanos utilizam frequentemente ChatGPT e ferramentas semelhantes, muitas vezes sem autorização da gestão. Contudo, todas as informações de operações como solicitações de comandos do usuário e respostas do modelo, são registradas nos servidores da OpenAI, Google e diversos outros provedores. Para tarefas em que o vazamento de informações é inaceitável, você não precisa renunciar totalmente à IA. Em vez disso, basta um pouco de esforço (e talvez algum investimento) para executar a rede neural localmente, mesmo que seja apenas um laptop.

Ameaças na nuvem

Os assistentes de IA mais populares são executados na infraestrutura de nuvem das grandes empresas. Eles são eficientes e rápidos, mas os dados processados pelo modelo podem ser acessíveis tanto ao provedor de serviços de IA quanto a terceiros não relacionados, como foi o caso no ano passado com o ChatGPT.

Esses incidentes apresentam níveis variados de ameaça, dependendo do uso dos assistentes de IA. Se você estiver criando ilustrações fofas para um contos de fadas que você escreveu ou usando o ChatGPT para planejar um itinerário do passeio de fim de semana, a probabilidade de um vazamento causar danos significativos é mínima. No entanto, se a interação com um chatbot envolver informações confidenciais, tais como dados pessoais, senhas ou números de cartão bancário, um eventual vazamento para a nuvem não será tolerável. Felizmente, isso é relativamente fácil de evitar com a filtragem prévia de dados. Confira o post específico que escrevemos sobre isso.

No entanto, em situações em que a mensagem é confidencial, como informações médicas ou financeiras, ou quando a confiabilidade da pré-filtragem é questionável, especialmente ao processar grandes volumes de dados que não serão revistos ou filtrados por ninguém, há apenas uma solução viável: passar o processamento da nuvem para um computador local. É claro que a execução da sua própria versão do ChatGPT ou do Midjourney off-line provavelmente não será bem-sucedida, mas outras redes neurais que trabalham localmente fornecem qualidade similar com menos carga computacional.

Qual o equipamento necessário para executar uma rede neural?

Você provavelmente já ouviu falar que trabalhar com redes neurais requer placas gráficas superpoderosas, entretanto, na prática, as coisas não são bem assim. Diferentes modelos de IA podem impor demandas diferentes aos componentes do computador, como RAM, memória de vídeo, unidade de armazenamento e CPU. Não é apenas a velocidade de processamento que importa: a compatibilidade do processador com instruções vetoriais específicas também é essencial. A capacidade de carregar o modelo depende da quantidade de RAM, e o tamanho da “janela de contexto” (ou seja, a memória da conversa anterior) depende da quantidade de memória de vídeo. Normalmente, com placa gráfica e CPU fracas, a geração tende a ser excepcionalmente lenta, muitas vezes produzindo apenas uma a duas palavras por segundo para modelos de texto. Portanto, um computador com especificações mínimas é mais adequado para permitir que os usuários se familiarizem com um modelo específico e avaliem sua adequação. Para garantir um uso diário tranquilo e eficaz, será necessário aumentar a memória RAM, fazer upgrade da placa gráfica ou optar por um modelo de IA mais rápido.

Como ponto de partida, é possível tentar trabalhar com os computadores que eram considerados relativamente poderosos em 2017: processadores não inferiores ao Core i7 com suporte para instruções AVX2, 16 GB de RAM e placas gráficas com pelo menos 4 GB de memória. Para os entusiastas do Mac, os modelos executados no chip Apple M1 e superior podem ser úteis, enquanto os requisitos de memória forem os mesmos.

Ao escolher um modelo de IA, primeiramente é necessário se familiarizar com os requisitos do sistema. Uma consulta de pesquisa como “requisitos de nome_do_modelo” ajudará a avaliar se vale a pena baixar esse modelo, tendo em vista o equipamento disponível. Há estudos detalhados disponíveis sobre o impacto da quantidade de memória, CPU e GPU no desempenho de diferentes modelos, como este aqui.

Boas notícias para as pessoas que não têm acesso a um equipamento poderoso: existem modelos de IA simplificados que podem executar tarefas práticas mesmo em hardware antigo. Mesmo que sua placa gráfica seja muito básica e fraca, é possível executar modelos e iniciar ambientes usando apenas a CPU. Dependendo de suas tarefas, eles podem até funcionar surpreendentemente bem.

Testes de taxa de transferência da GPU

Exemplos sobre como as diversas compilações de computador funcionam com modelos de linguagem populares

A escolha de um modelo de IA e a magia da quantização

Uma ampla gama de modelos de linguagem está disponível hoje, mas muitos deles têm aplicações práticas limitadas. No entanto, há ferramentas de IA facilmente acessíveis e fáceis de usar, projetadas para tarefas específicas como a Mistral 7B, para geração de texto, e a Code Llama 13B, proficiente na criação de trechos de código. Portanto, ao escolher um modelo, restrinja as opções a alguns candidatos apropriados e certifique-se de que seu computador possui os recursos necessários para executá-los.

Em qualquer rede neural, a maior parte da tensão da memória está fundamentada na cortesia de pesos, ou seja, os coeficientes numéricos que descrevem a operação de cada neurônio na rede. Inicialmente, ao treinar o modelo, os pesos são calculados e armazenados como números fracionários de alta precisão. No entanto, é possível verificar que o arredondamento dos pesos no modelo treinado permite que a ferramenta de IA seja executada em computadores comuns, o que diminui apenas ligeiramente o desempenho. Esse processo de arredondamento é chamado de quantização e, com sua ajuda, o tamanho do modelo pode ser reduzido consideravelmente, em vez de 16 bits, cada peso pode usar 8, 4 ou até 2 bits.

De acordo com a pesquisa atual, um modelo maior com mais parâmetros e quantização, às vezes, pode fornecer resultados melhores do que um modelo com armazenamento de peso preciso, mas menos parâmetros.

Sabendo tudo isso, agora você pode explorar o tesouro dos modelos de linguagem de código aberto, ou seja, a lista Open LLM leaderboard. Nela, as ferramentas de IA são classificadas de acordo com diversas métricas de qualidade de geração, e os filtros facilitam a exclusão de modelos muito grandes, muito pequenos ou muito precisos.

Lista de modelos de linguagem classificados por conjunto de filtros

Lista de modelos de linguagem classificados por conjunto de filtros

Depois de ler a descrição do modelo e verificar se ele é adequado às suas necessidades, teste o desempenho na nuvem usando os serviços Hugging Face ou Google Colab. Dessa forma, é possível evitar o download de modelos que produzem resultados insatisfatórios e economizar tempo. Quando estiver contente com o teste inicial do modelo, é hora de verificar como ele se comporta localmente!

Softwares necessários

A maioria dos modelos de código aberto é publicada no Hugging Face, mas baixá-los pura e simplesmente para o computador não é suficiente. Para executá-los, é necessário instalar um software especializado, como o LLaMA.cpp, ou o que seria ainda mais fácil, seu “wrapper”, o LM Studio. O último possibilita a escolha direta do modelo a partir do aplicativo. Ele também oferece a opção de fazer o download e executar o modelo em uma caixa de diálogo.

Outra maneira “pronta para uso” de usar um chatbot localmente é GPT4All. Aqui, a escolha é limitada a cerca de uma dúzia de modelos de idiomas, mas a maioria deles será executada mesmo em um computador com apenas 8 GB de memória e uma placa gráfica básica.

Se a geração for muito lenta, um modelo com quantização mais grosseiro poderá ser necessário (dois bits em vez de quatro). Se a geração for interrompida ou se ocorrerem erros durante a execução, é provável que o problema esteja relacionado à falta de memória. Nesse caso, pode ser útil procurar um modelo com menos parâmetros ou, novamente, com uma quantização mais ampla.

Muitos modelos no Hugging Face já foram quantizados em vários graus de precisão, mas se ninguém quantizou o modelo desejado com a precisão desejada, você poderá fazê-lo usando GPTQ.

Esta semana, outra ferramenta promissora foi lançada para a versão beta pública: Chat With RTX da NVIDIA. O fabricante dos chips de IA mais procurados lançou um chatbot local capaz de resumir o conteúdo de vídeos do YouTube, processar conjuntos de documentos, e muito mais, desde que o usuário tenha um PC Windows com 16 GB de memória e uma placa gráfica NVIDIA RTX de 30ª ou 40ª série com 8 GB ou mais de memória de vídeo. As variedades Mistral e Llama 2 da Hugging Face têm essencialmente a mesma estrutura. É claro que placas gráficas poderosas podem melhorar o desempenho da geração, entretanto, de acordo com o feedback dos primeiros testadores, a versão beta existente é bastante complicada (cerca de 40 GB) e difícil de instalar. Porém, o Chat With RTX da NVIDIA pode se tornar um assistente de IA local muito útil no futuro.

O código para o jogo “Snake”, escrito pelo modelo de linguagem quantizada TheBloke/CodeLlama-7B-Instruct-GGUF

Os aplicativos listados acima executam todos os cálculos localmente, não enviam dados para os servidores e podem ser executados off-line para que seja possível compartilhar as informações confidenciais com esses aplicativos com segurança. No entanto, para garantir a proteção total contra vazamentos, será necessário não apenas preservar a segurança do modelo de idioma, mas também a do computador: é aqui que nossa solução de segurança abrangente entra em cena. De acordo com o que foi confirmado em testes independentes, Kaspersky Premium praticamente não há impacto no desempenho do computador, e isso representa uma vantagem importante ao trabalhar com modelos de IA locais.

Dicas