Você lembra de onde vem o termo “vírus”? Sim, estou falando dos vírus biológicos, aqueles que inspiraram os especialistas de TI para nomear programas que inserem seus próprios códigos em outros objetos para se multiplicar e se propagar.
É bem provável que essa terminologia em ciência da informação retomará seu sentido original logo. Pesquisadores da Microsoft e da Universidade de Washington atingiram uma nova marca em armazenamento de dados ao gravar aproximadamente 200MB de dados na forma de DNA sintético.
Você pode se perguntar: qual a conexão com vírus biológicos? A analogia é bem direta: um vírus injeta seu código genético no DNA de organismos infectados, fazendo com que o hospedeiro replique o DNA do vírus no lugar das proteínas corretas.
Os mais agressivos interrompem processos fisiológicos a um nível que pode chegar a morte celular, culminando na do organismo. Da mesma forma, os malwares mais agressivos podem deixar o sistema atingido completamente inutilizado.
Portanto, agora que a humanidade começou a produzir informação em formato de DNA, pode ser necessário proteção desses dados em nível de hardware. Antes disso, vamos dar uma visão geral da situação e como esse “hardware” funciona.
Por dentro do DNA
O DNA, abreviação de ácido desoxirribonucleico, é a maior molécula do nosso organismo, e carrega nossa informação genética. A analogia mais próxima em TI é a imagem de boot, que permite que o computador carregue e inicie o sistema operacional. Na maioria dos casos – os quais não detalharei nesse post – depois que o sistema operacional for carregado na memória, o computador inicia os módulos executáveis requeridos para se sustentar e executar o trabalho para o qual foi programado. Da mesma maneira, células vivas na maioria das vezes usam DNA para produzir “executáveis” – sequências de RNA (Ácido ribonucleico), que cuida da síntese proteica e sustenta o organismo viabilizando a execução de suas funções.
Todas as características de um organismo, dos olhos a cor dos cabelos, a qualquer desordem hereditária, são armazenadas no DNA. Eles são codificados em sequências de nucleotídeos – blocos moleculares contendo (para a maioria dos organismos conhecidos), apenas quatro variedades de bases nitrogenadas: adenina, guanina, timina e citosina.
Esses podem ser chamados de “peças biológicas”. E como você pode ver, a mãe natureza utilizou um sistema numérico quaternário para codificar a informação genética, diferentemente de computadores, que usam código binário.
Vale mencionar que o DNA possui uma função de correção -o DNA é mais conhecido como duas filas de nucleotídeos amarradas em formato helicoidal.
Essas duas filas ficam conectadas por pontes de hidrogênio que apenas se formam entre pares específicos de nucleotídeos – quando se complementam. Isso garante que a informação codificada em um dos lados tenha um correspondente de nucleotídeos na outra fita. É assim que o sistema de correção de código funciona, quando decodificado ou copiado. A primeira tira de DNA é usada como matéria-prima para controlar a segunda. Isso indica se a sequência de nucleotídeos foi copiada, fraudada ou danificada.
Além disso, as características genéticas são codificadas em sequências de nucleotídeos que utilizam codificação redundante. Para explicar como funciona no caso mais simples, imagine que todas as características hereditárias escritas como sequências de nucleotídeos são acompanhadas por um somatório.
A sequência de nucleotídeos foi estudada extensivamente desde a descoberta do DNA há 50 anos. Hoje, você pode ter seu DNA lido em muitos laboratórios ou até por serviços online, como o 23andme.
Como cientistas leem o DNA
Ao longo dos séculos, cientistas desenvolveram métodos para determinar a estrutura de coisas minúsculas, como espectrometria de massa, raio X e outros métodos. Eles funcionam muito bem para moléculas compostas por dois, três ou quatro átomos, mas o entendimento dos resultados experimentais para moléculas maiores são bem mais complexos. Quanto mais átomos em uma molécula, mais difícil será entender sua estrutura.
Tenha em mente que o DNA é considerado a maior molécula e tem uma boa razão para isso: o de uma célula haplóide contém por volta de 3 bilhões de pares de bases. A massa molecular do DNA é um pouco maior em magnitude que a massa molecular da maior proteína conhecida.
Resumindo, são muitos átomos, e decifrar dados experimentais obtidos com métodos clássicos, mesmo com supercomputadores, podem facilmente levar meses ou anos.
No entanto, cientistas inventaram métodos de sequenciamento que aceleram o processo. A principal ideia é separar as longas sequências de bases em muitos fragmentos que possam ser analisados em paralelo.
Para isso, biólogos usam máquinas moleculares: proteínas especiais (enzimas) chamadas polimerases. A principal função dessas é copiar o DNA percorrendo a fita e replicando as bases nitrogenadas.
Apesar disso, não precisamos de uma cópia completa do DNA; no lugar queremos dividi-la em fragmentos, e fazemos isso por meio de proteínas que sinalizam onde a polimerase deve parar o projeto de replicação.
Essas proteínas contêm sequências de nucleotídeos que podem se aderir a tira de DNA em um local no qual encontra um sítio correspondente a sequência de bases complementares. Polimerases encontram as proteínas de início e começam a clonar a sequência, retirando os blocos da solução. Como em cada processo na vida humana, tudo ocorre em solução aquosa. Polímeros clonam a sequência até encontrar uma proteína de parada: um nucleotídeo que termina o processo de construção da fita.
Não tem problema. A polimerase, a fita de DNA, proteínas de início e parada, e as bases, todas dispersas em solução. Portanto, é impossível definir a localização exata de onde vai começar. Podemos definir apenas as sequências das quais e para as quais copiaremos.
Ainda na analogia de TI, podemos ilustrar da seguinte maneira. Imagine que nosso DNA é uma combinação de blocos: 1101100001010111010010111. Se usarmos 0000 como ponto de início e 11 como de parada, teremos os seguintes fragmentos, ordenados por ordem de probabilidade de ocorrência decrescente: 0000101011, 00001010111, 0000101011101001011, 00001010111010010111.
Usando diferentes códigos de início e marcadores, começa-se por todas as sequências mais curtas, e a partir dessas infere-se as mais longas.
Isso tudo pode parecer pouco intuitivo e complicado, mas funciona. Na verdade, como temos diversos processos em paralelo, esse método atinge boas velocidades. Isso quer dizer, algumas horas quando comparado com meses ou anos ainda é muito no contexto da tecnologia da informação.
DNA e acesso aleatório
Depois de entender como ler o DNA, cientistas aprenderam como sintetizar sequências de nucleotídeos. Os pesquisadores da Microsoft não foram os primeiros a tentar escrever informação na forma de DNA artificial. Alguns anos atrás, pesquisadores do EMBL-EBI foram capazes de codificar 739 kilobytes.
Duas coisas fazem do trabalho da Microsoft uma grande descoberta. Primeiro, os pesquisadores aumentaram progressivamente o volume de dados até a marca dos 200MB. Isso não é muito longe dos 750MB de capacidade que uma fita de DNA humano possui.
Contudo, o que é de fato novo aqui é que se tem uma proposta a respeito de como ler parte do DNA, aproximadamente 100 bases (bio-bits), em cada operação em sequência.
Os pesquisadores foram capazes de chegar a isso usando pares de proteínas de início e para que os permite ler certos conjuntos de nucleotídeos com uma fita correspondendo do começo da fita. Não se trata do acesso aleatório a um único bit, mas a tecnologia está próxima disso.
Pesquisadores acreditam que o nicho principal desse tipo de memória de DNA poderia ser módulos de memória de longo prazo e alta densidade. O que definitivamente faz sentido: as amostras mais conhecidas de memória flash possui densidade aproximada de 1016 bits por centímetro cúbico, ao passo que a densidade do DNA é três ordens de grandeza mais alta – 1018 bits por centímetro cúbico.
Ao mesmo tempo, o DNA é uma molécula muito estável. Aliado com programação redundante e sistemas de correção de erros, os dados que o compõem se manteriam legíveis por anos ou até séculos depois de escritos.
De volta ao vírus
Mas o que isso significa do ponto de vista de segurança de informação? Significa que a integridade da informação armazenada dessa forma pode estar ameaçada por organismos especializados em corrupção de dados por bilhões de anos – os vírus.
Muito provavelmente não veremos uma explosão de vírus geneticamente modificados para caçar DNA sinteticamente codificado. Seria simplesmente mais fácil – e isso por um bom tempo – modificar dados e inserir códigos maliciosos quando o dado for digital antes de ser inserido em DNA.
Trata-se de uma questão aberta, como proteger esses dados da corrupção de vírus já existentes. Por exemplo, polímeros podem replicar o DNA facilmente na solução: por exemplo, o DNA do vírus comum da gripe.
Então, pode ser interessante tomar cuidado com alguém espirrando ou tossindo enquanto você estiver escrevendo em um arquivo importante…