Qual é a maneira mais rápida de encontrar uma ameaça, seja phishing ou spam, em seu e-mail? Problemas altamente técnicos e outros marcadores indiretos de spam podem apontar o caminho, mas não devemos esquecer o mais importante: o conteúdo. Muitos podem pensar que é a primeira coisa a analisar; afinal, texto é o que os cibercriminosos ou anunciantes inescrupulosos usam para manipular os destinatários. Porém, a tarefa não é tão simples. Embora antes bastasse analisar as assinaturas, agora é necessário digitalizar o texto usando algoritmos de aprendizado de máquina. E se você vai ensinar o modelo de aprendizado de máquina a classificar mensagens corretamente, precisará alimentá-lo com um número considerável de mensagens, o que nem sempre é possível por motivos de privacidade. Mas encontramos uma solução.
Por que a análise de assinatura não é mais eficaz?
Há dez anos, era relativamente fácil detectar spam com base em textos de e-mail, uma vez que os cibercriminosos usavam os mesmos modelos: o texto das mensagens de spam (e phishing) praticamente não mudava. Os cibercriminosos agora melhoram continuamente a eficácia de seus e-mails e usam milhões de gatilhos: notícias em videogames, séries de TV ou modelos de smartphones, alertas políticos e até mesmo emergências (por exemplo, a abundância de phishing e spam relacionados a COVID-19). Essa grande variedade de tópicos complica o processo de detecção. Além disso, os invasores podem variar o texto em uma onda de e-mail para contornar os filtros de proteção.
É claro que os métodos baseados em assinatura ainda funcionam, embora seu sucesso dependa da localização de um texto que outra pessoa já classificou como spam ou prejudicial. Eles não podem funcionar de forma proativa, pois os cibercriminosos podem contornar esses filtros simplesmente alterando o texto do e-mail. Portanto, a única maneira de lidar com esse problema é por meio do aprendizado de máquina.
Qual é a desvantagem deste tipo de aprendizagem?
Nos últimos anos, os métodos de aprendizado de máquina têm mostrado bons resultados na solução de uma ampla variedade de problemas. Ao analisar uma grande quantidade de dados, os modelos aprendem a tomar decisões e encontrar características comuns e relevantes em um fluxo de informações. Usamos redes neurais altamente técnicas, junto com o protocolo DMARC, para detectar ameaças em e-mails. Então, por que não podemos fazer o mesmo com o texto da mensagem?
Como já discutimos, os modelos requerem uma grande quantidade de dados. Nesse caso, as informações consistem em mensagens de e-mail e não apenas maliciosas; também precisamos de conteúdo legítimos. Sem eles, seria impossível ensinar um modelo a distinguir um ataque de um e-mail legítimo. Temos várias armadilhas que interceptam todos os tipos de spam (usamos para fazer assinaturas), mas obter mensagens legítimas para o processo de aprendizagem é uma tarefa mais complicada.
Normalmente, os dados são coletados em servidores de aprendizagem centralizados. Mas quando se trata de texto ou conteúdo, há uma série de dificuldades adicionais: e-mails podem conter dados confidenciais, portanto, armazená-los e processá-los em sua forma original seria inaceitável. Então, como obtemos um volume suficiente de e-mails legítimos?
Aprendizagem federada
Corrigimos esse problema usando o método de aprendizado federado, que elimina completamente a necessidade de coletar mensagens de e-mail e, em vez disso, treina os modelos de maneira descentralizada. O treinamento do modelo ocorre diretamente nos servidores de correio do cliente e o servidor central recebe apenas as chaves dos modelos de aprendizado de máquina, mas não o texto da mensagem. No servidor central, os algoritmos combinam os dados com a versão resultante do modelo e depois os enviamos de volta para as soluções do cliente, onde o modelo procede para analisar novamente o fluxo de mensagens.
Aqui, deixamos você com uma descrição ligeiramente simplificada: antes que o modelo recém-treinado seja ativado com casos reais, ele passa por vários ciclos de treinamento adicional. Ou seja, dois modelos trabalham simultaneamente no servidor de e-mail: um em modo de treinamento e outro em modo ativo. Após várias viagens para o servidor central, o modelo de treinamento substitui o ativo.
É impossível recuperar o texto das mensagens; desta forma, a privacidade é garantida durante o processamento. No entanto, o treinamento com mensagens de e-mail legítimas melhora significativamente a qualidade do modelo de detecção.
Até agora, testamos esta estratégia para classificar spam em Kaspersky Security for Microsoft Office 365 e os resultados estão sendo surpreendentes. Em breve, iremos expandir os aplicativos de uso e ele será usado para identificar outras ameaças como phishing ou BEC.