Sequenciando seu DNA com um dongle USB e código-fonte aberto

Ele faz as medições mais requintadas que você pode imaginar, registrando as mudanças na corrente associadas a diferentes pedaços de DNA.

Lembra-se da cena da Matrix em que Neo libera todo o seu poder e o mundo ao seu redor é revelado como linhas de código em todas as direções? E se você pudesse ver o mundo ao seu redor dessa forma, de modo que a pessoa sentada ao seu lado fosse uma página da web onde se pudesse clicar com o botão direito para inspecionar o elemento e encontrar o código-fonte abaixo? 

 

Ainda não chegamos lá, mas avanços recentes no sequenciamento de nanopore, impulsionados por desenvolvimentos em software de código aberto, tornaram possível reduzir significativamente o tempo necessário para decodificar um genoma, diminuindo o que costumava ser um processo de 15 dias a três dias ou menos. Não faz muito tempo que a decodificação de um genoma demorava anos! Para entender o código por trás dessas novas técnicas, que foram apelidadas de UNCALLED, conversamos com o Prof. Michael Schatz, o Distinto Professor Associado de Ciência da Computação e Biologia da Bloomberg na Johns Hopkins.

 

Primeiro, vamos começar com um sequenciador nanopore. “A ideia surgiu há cerca de 30 anos, e a lenda é que o primeiro diagrama foi desenhado em um guardanapo”, diz Schatz. Na realidade, o conceito original para sequenciamento de nanopore foi esboçado pelo Dr. David Deamer ( @UCSC_BSOE ) em um caderno de estenógrafo usando uma caneta esferográfica de tinta vermelha!

 

 

Imagine um buraco tão pequeno que uma única fita de DNA possa passar por ela de cada vez. Empurre seu material genético por esse poro e as As, Ts, Gs e Cs que compõem o genoma humano serão reveladas em sequência. Então, como você distingue os quatro blocos de construção do DNA?

 

 

“São necessárias as medições mais requintadas que você pode imaginar, medindo as mudanças na corrente associadas a diferentes pedaços de DNA”, explica ele. “Isso está acontecendo no nível de pico-amperes - um trilionésimo de medição de um amplificador - e podemos obter essas leituras em tempo real.” Cinco anos atrás, o equipamento necessário para este trabalho estaria restrito a instalações de pesquisa sérias. Hoje, por cerca de mil dólares, você pode comprar um sequenciador nanopore como um periférico que se conecta a qualquer computador via USB.

 

[Mergulhe fundo no mundo da tecnologia e cadastre-se no Avance Network a verdadeira comunidade criptografada!]

 

O sequenciamento produz dados elétricos muito barulhentos, mas Schatz e sua equipe desenvolveram uma lógica difusa inspirada em um modelo de Markov para decodificar cada proteína em tempo quase real. “Quer dizer, é basicamente fora de Star Trek, certo?” diz Schatz com entusiasmo. “Os nucleotídeos estão passando por este minúsculo orifício e estamos medindo a corrente quatro mil vezes por segundo.” O software está decodificando a sequência em tempo real para que possa ser combinada com diferentes marcadores genéticos. Assim, por exemplo, você pode identificar se é provável que seja uma bactéria patogênica ou um gene associado ao câncer. Mais importante, você pode ignorar fragmentos que não são úteis no momento. 

 

Cada pedaço de DNA que passa por este pequeno orifício é uma molécula carregada. O software permite ao usuário reverter a voltagem em uma molécula individual, que tem o efeito de ejetá-la para fora do nanopore. É essa capacidade de sequenciar seletivamente apenas as seções que são relevantes para o trabalho em questão que permite melhorias massivas na velocidade. “Há uma chamada de API para selecionar com quais moléculas você deseja trabalhar”, diz Schatz. “É simplesmente incrível para mim que isso seja possível.”

 

 

Processando a linguagem da vida

 

Cada fragmento de DNA retorna uma leitura de voltagem com base em seus nucleotídeos. Então, quando você obtém uma voltagem, quão difícil é essa chamada de consulta? Não é uma tabela simples, mas sim uma correspondência lógica muito difusa. “Para os dados elétricos, o que você pode querer é para os nucleotídeos A, há uma corrente particular, para o C uma corrente diferente, etc”, diz Schatz. "Mas você não entende nada disso."

 

A corrente elétrica está, na verdade, associada a vários nucleotídeos em sequência. Cerca de seis nucleotídeos são os mais influentes. Você pode pensar na corrente elétrica como se o DNA estivesse passando por este pequeno orifício. “Então, você realmente sente o mesmo nucleotídeo cerca de seis vezes diferentes em contextos diferentes em seis nucleotídeos circundantes.” A corrente é muito barulhenta. Para uma medição de corrente específica, normalmente existem centenas de sequências de nucleotídeos que ela poderia representar.

 

Pense em cada combinação dessas seis com um deslocamento. No deslocamento um, há cem sequências de nucleotídeos possíveis; no deslocamento dois, há mais cem; no deslocamento três, há mais cem; e no deslocamento quatro, há outros cem. “Mas é nessa combinação de sequências sobrepostas que você pode ter qualquer esperança de resolver isso em um nucleotídeo específico, pois sabemos que as sequências devem se sobrepor”. Por exemplo, GATTACA no deslocamento um poderia ser seguido por ATTACAT no deslocamento dois, mas não TTTACAT, AATACAT, nem qualquer outra sequência que não inicie ATTACA 

 

A decodificação usa uma lógica semelhante ao processamento de linguagem natural para combinar aquele sinal elétrico ruidoso com uma sequência de nucleotídeos. 

 

Depois de ter a sequência de nucleotídeos, você precisa fazer o processamento de texto para decidir de onde no genoma essa molécula se origina. “Grande parte dessa tecnologia foi inventada em torno dos sistemas de armazenamento de banco de dados há cerca de 30 anos”, diz Schatz. “Existe uma estrutura de dados realmente poderosa chamada de transformação Burrows-Wheeler que agora é realmente central para a genômica nos dias de hoje.” 

 

O sequenciador nanopore é incrivelmente barato em comparação com as ferramentas de laboratório de alguns anos atrás. Mas requer um cartucho de uso único, chamado de célula de fluxo, para sequenciar moléculas de DNA, e o custo desses pode aumentar rapidamente ao tentar olhar para grandes sequências. “O que o software faz é, em vez de ter que escanear todo o genoma, podemos ser muito exigentes sobre em quais moléculas vamos investir nosso sequenciamento”, diz Schatz. “Podemos escolher em tempo real quais moléculas serão lidas por completo e quais moléculas serão ejetadas após cerca de um segundo de sequenciamento.”

 

Então, por exemplo, se você estivesse procurando determinar se uma pessoa carregava uma variante em um gene conhecido por estar associado ao câncer hereditário, como BRCA1, você pegaria uma amostra. Se você quisesse traçar o perfil de todo o material com sequenciamento de nanoporos, seria um processo muito lento e caro. Todas as moléculas são misturadas em um tubo de ensaio e você as sequencia uma de cada vez conforme são retiradas aleatoriamente daquela coleção. No entanto, o novo software do laboratório Schatz denominado UNCALLED , liderado por Ph.D. o aluno Sam Kovaka pode avaliar em tempo quase real se vale a pena estudar uma sequência ou não.

 

Na verdade, durante uma sequência normal, é provável que você queira sequenciar o genoma mais de uma vez, uma vez que qualquer amostra que você tirar tem uma coleção aleatória de moléculas de DNA e pode não conter as partes de seu interesse. Com a capacidade de selecionar, você pode peneirar o que está procurando mais rápido e evitar sequenciar outras áreas repetidamente.

 

Ou, por exemplo, tome o exemplo das doenças infecciosas, que está na cabeça de todos hoje em dia. Os laboratórios de todo o mundo estão lutando com enormes cargas de trabalho conforme os testes explodem. “Nesse cenário, o genoma humano é meio chato. Não é exatamente isso que você está procurando. ” Schatz diz. Com o UNCALLED, o nanopore ejetaria qualquer coisa obviamente humana. “Qualquer coisa que não corresponda ao genoma humano, voltaremos e tentaremos mantê-la para que possamos fazer uma análise em tempo real do que é.” 

 

Abrir o código do nosso código-fonte

 

Quando Schatz entrou pela primeira vez no mundo da genômica, a indústria tinha uma péssima reputação de ser fechada e proprietária. “Nos primeiros dias, houve um esforço para fazer muitos patenteamentos de genes. Houve alguns casos importantes sobre genes associados ao câncer de mama, por exemplo. Houve esforços para patentear essas sequências e cobrar quantias extraordinárias de dinheiro para fazer o que agora é uma análise muito básica. ”

 

Felizmente, diz Schatz, essa tendência mudou para melhor nos últimos anos. “Houve várias ondas de tecnologias nos últimos vinte anos, então há um verdadeiro senso de urgência. Mesmo que todos esses sequenciadores apenas escrevam as sequências de nucleotídeos, cada plataforma tem propriedades e características diferentes e erros associados a ela. Portanto, há uma corrida real para desenvolver software que possa superar essas diferenças e fazer o melhor uso dos dados das diferentes plataformas. ”

 

Por que não transformar o software em um produto proprietário? Bem, a velocidade é importante. “Se você tentar comercializar, demora um pouco para abrir uma empresa, e pode demorar tanto que na hora que você vai para a mecânica disso, a próxima coisa já surgiu. Há tanta corrida que é difícil comercializar o software a longo prazo. ” Schatz continua: “Além disso, nosso trabalho é amplamente financiado por doações patrocinadas pelo governo, então esta é uma das maneiras importantes de retribuirmos à sociedade”.

 

O clima atual é muito mais saudável e feliz para acadêmicos como Schatz, que planeja continuar abrindo o código do software que está sendo criado por seu laboratório. “Há muitos benefícios em poder compartilhar códigos e trabalhar de forma colaborativa. Em quase todos os casos, os prós superam qualquer tipo de potencial negativo.

 

 

O Avance Network é uma comunidade fácil de usar que fornece segurança de primeira e não requer muito conhecimento técnico. Com uma conta, você pode proteger sua comunicação e seus dispositivos. O Avance Network não mantém registros de seus dados; portanto, você pode ter certeza de que tudo o que sai do seu dispositivo chega ao outro lado sem inspeção.


Strong

5178 Blog indlæg

Kommentarer