Os cyber vírus estão voltando ao básico

É bem possível que, em um futuro previsível, as informações sejam armazenadas no DNA, e o termo “vírus” volte ao seu significado literal.

Você se lembra de onde veio o termo “vírus”? Sim, estou falando de vírus biológicos, após os quais especialistas em segurança de TI nomearam os programas de computador que inserem seu próprio código em outros objetos para se reproduzir e se propagar .

 

 

É muito provável que em breve este termo de tecnologia da informação recupere seu significado original - pesquisadores da Microsoft e da Universidade de Washington marcaram um novo marco no armazenamento de dados ao gravar aproximadamente 200 MB de dados na forma de um DNA sintético.

 

Você pode perguntar: Qual é a conexão com os vírus biológicos? A analogia é bastante direta - os vírus inserem seu código genético no DNA de organismos infectados, fazendo com que o DNA reproduza os vírus em vez de sintetizar as proteínas certas, que são vitais.

 

Os vírus mais agressivos perturbam os processos fisiológicos normais a tal ponto que leva à morte das células e, no final - de todo o organismo. Da mesma forma, o malware mais agressivo pode tornar o sistema de informação infectado absolutamente inútil ou "morto".

 

Portanto, agora que a humanidade começou a escrever informações na forma de DNA, pode valer a pena começar a se preocupar em proteger esses dados no "nível de hardware". Mas, primeiro, deixe-me dar uma visão geral de como esse “hardware” funciona.

 

DNA interno

 

O DNA, que significa ácido desoxirribonucléico, é a maior molécula de nosso organismo e transportadora de informações genéticas. O análogo de TI mais próximo é a imagem de boot, que permite ao computador inicializar e carregar o sistema operacional. Na maioria dos casos (com algumas exceções que não irei tocar neste post), depois que o sistema operacional foi carregado na memória, o computador inicia os módulos executáveis ​​necessários para se suportar e realizar o trabalho para o qual está programado. Da mesma forma, as células vivas, na maioria dos casos, usam o DNA para produzir os “executáveis” - sequências de RNA (ácidos ribonucléicos), que lidam com a síntese de proteínas para sustentar o organismo e desempenhar suas funções.

 

[Mergulhe fundo no mundo da tecnologia e cadastre-se no Avance Network a verdadeira comunidade criptografada!]

 

 

Todas as características do organismo, desde a cor dos olhos e do cabelo até quaisquer doenças hereditárias, estão armazenadas no DNA. Eles são codificados em uma sequência de nucleotídeos - blocos moleculares contendo (para a maioria dos organismos conhecidos) apenas quatro variedades de bases nitrogenadas: adenina, guanina, timina e citosina. Eles podem ser chamados de "bits biológicos". Como você pode ver, a mãe natureza usou um sistema numeral quaternário para codificar a informação genética, ao contrário dos computadores feitos pelo homem, que usam código binário.

 

Vale a pena mencionar que o DNA tem uma função de correção de código embutida - o DNA mais conhecido tem duas fitas de nucleotídeos, enroladas uma em volta da outra como um fio de par trançado em uma dupla hélice.

 

Essas duas fitas estão ligadas uma à outra por ligações de hidrogênio que se formam apenas entre pares de nucleotídeos estritamente definidos - quando se complementam. Isso garante que a informação codificada em uma determinada sequência de nucleotídeos em uma fita corresponda a uma sequência semelhante de nucleotídeos complementares na segunda fita. É assim que funciona esse mecanismo de correção de código - quando decodificado ou copiado, a primeira fita de DNA é usada como fonte de dados e a segunda como sequência de controle. Isso indica se uma sequência de nucleotídeos, codificando alguma característica genética, foi danificada em uma das fitas.

 

Além disso, as características genéticas são codificadas em sequências de nucleotídeos usando algoritmos de codificação redundantes. Para explicar como funciona no caso mais simples - imagine que cada característica hereditária, escrita como uma sequência de nucleotídeos, é acompanhada por um checksum.

 

As sequências de nucleotídeos que codificam características genéticas, ou genes, foram estudadas extensivamente nos 50 anos desde a descoberta do DNA. Hoje você pode ter seu DNA lido em vários laboratórios ou mesmo online - via 23andme ou serviços semelhantes.

 

Como os cientistas leem o DNA

 

Ao longo dos últimos séculos, os cientistas desenvolveram métodos para determinar a estrutura de objetos minúsculos, como a análise da estrutura de raios X, espectrometria de massa e uma família de métodos de espectroscopia. Eles funcionam muito bem para moléculas compreendendo dois, três ou quatro átomos, mas compreender os resultados experimentais para moléculas maiores é muito mais complicado. Quanto mais átomos houver na molécula, mais difícil será entender sua estrutura.

 

Lembre-se de que o DNA é considerado a maior molécula por um bom motivo: o DNA de uma célula humana haplóide contém cerca de 3 bilhões de pares de bases. A massa molecular de um DNA é algumas ordens de magnitude maior do que a massa molecular da maior proteína conhecida.

 

Resumindo, é uma enorme pilha de átomos, então decifrar dados experimentais obtidos com métodos clássicos, mesmo com os supercomputadores de hoje, pode facilmente levar meses ou mesmo anos.

 

Mas os cientistas criaram um método de sequenciamento que acelera rapidamente o processo. A ideia principal por trás disso: dividir a longa sequência de bases em muitos fragmentos mais curtos que podem ser analisados ​​em paralelo.

 

Para fazer isso, os biólogos usam máquinas moleculares: proteínas especiais (enzimas) chamadas polimerases. A função central dessas proteínas é copiar o DNA percorrendo a fita e construindo uma réplica das bases.

 

Mas não precisamos de uma cópia completa do DNA; em vez disso, queremos dividi-la em fragmentos, e fazemos isso adicionando os chamados primers e marcadores - compostos que dizem à polimerase onde começar e onde parar o processo de clonagem, respectivamente.

 

Os primers contêm uma determinada sequência de nucleotídeos que podem se ligar a uma fita de DNA em um local onde encontra uma sequência correspondente de bases complementares. A Polymerase encontra o primer e começa a clonar a sequência, pegando os blocos de construção da solução. Como todo processo de vida, tudo isso acontece na forma líquida. A polimerase clona a sequência até encontrar um marcador: um nucleotídeo modificado que termina o processo de construção da fita.

 

Porém, há um problema. A polimerase, fita de DNA, primers, marcadores e nossos blocos de construção, todos estão dispersos na solução. Portanto, é impossível definir o local exato onde a polimerase começará. Podemos definir apenas as sequências das quais e para as quais iremos copiar.

 

Continuando com a analogia da TI, podemos ilustrá-la da seguinte maneira. Imagine que nosso DNA seja uma combinação de bits: 1101100001010111010010111. Se usarmos 0000 como primer e 11 como marcador, obteremos o seguinte conjunto de fragmentos, colocados na ordem de probabilidade decrescente:

0000101011, 00001010111, 0000101011101001011, 00001010111010010111.

 

Usando diferentes primers e marcadores, examinaremos todas as possíveis sequências mais curtas e, em seguida, inferiremos a sequência mais longa com base no conhecimento do que é composta.

 

Isso pode parecer contra-intuitivo e complicado, mas funciona. Na verdade, como temos vários processos em paralelo, esse método atinge uma velocidade bastante boa. Ou seja, algumas horas em comparação com meses ou anos - não muito rápido da perspectiva de TI, no entanto.

 

DNA e acesso aleatório

 

Depois de aprender a ler o DNA, os cientistas aprenderam a sintetizar sequências de nucleotídeos. Os pesquisadores da Microsoft não foram os primeiros a tentar escrever informações na forma de DNA artificial. Alguns anos atrás, pesquisadores do EMBL-EBI foram capazes de codificar 739 kilobytes.

 

Duas coisas fazem do trabalho da Microsoft um avanço. Primeiro, os pesquisadores aumentaram muito o volume de dados armazenados, para 200 MB. Isso não está muito longe dos 750 MB de dados contidos em cada fita de DNA humano.

 

No entanto, a novidade aqui é que eles propuseram uma forma de leitura de parte do DNA, com aproximadamente 100 bases (bio-bits) de comprimento, a cada operação de sequenciamento.

 

Os pesquisadores conseguiram isso usando pares de primers e marcadores que lhes permitem ler um determinado conjunto de nucleotídeos com um deslocamento definido desde o início da fita. Não é exatamente o acesso aleatório a um único bit, mas a tecnologia está próxima - bloqueie o acesso à memória.

 

Os pesquisadores acreditam que o principal nicho para essa memória de DNA poderia ser módulos de memória de alta densidade de longo prazo. Definitivamente faz sentido: as amostras mais conhecidas de memória flash fornecem uma densidade de ~ 10 16 bits por centímetro cúbico, enquanto a densidade estimada para a memória de DNA é três ordens de magnitude maior: ~ 10 19 bits por centímetro cúbico.

 

Ao mesmo tempo, o DNA é uma molécula bastante estável. Juntamente com a codificação redundante embutida e os esquemas de correção de erros, os dados contidos nele permaneceriam legíveis anos ou mesmo séculos após serem escritos.

 

Voltar para vírus

 

Mas o que tudo isso significa do ponto de vista da segurança da informação? Isso significa que a integridade das informações armazenadas dessa forma pode ser ameaçada por organismos que se especializaram em corrupção de dados por bilhões de anos - vírus.

 

É improvável que vejamos um boom de vírus geneticamente modificados criados para caçar DNA sintético codificado. Será simplesmente mais fácil - por muito tempo - modificar dados e inserir código malicioso quando os dados são digitais, antes de serem gravados no DNA.

 

Mas é uma questão em aberto, como proteger esses dados da corrupção por vírus existentes . Por exemplo, a polimerase replicará de bom grado qualquer DNA da solução: por exemplo, o DNA do vírus da gripe comum.

 

Portanto, pode ser importante observar se alguém estava espirrando ou tossindo enquanto você estava escrevendo um arquivo importante...

 

 

O Avance Network é uma comunidade fácil de usar que fornece segurança de primeira e não requer muito conhecimento técnico. Com uma conta, você pode proteger sua comunicação e seus dispositivos. O Avance Network não mantém registros de seus dados; portanto, você pode ter certeza de que tudo o que sai do seu dispositivo chega ao outro lado sem inspeção.


Strong

5178 Blog Beiträge

Kommentare