Desde os primeiros dias da pandemia COVID-19, a epidemiologista Melissa Haendel sabia que os Estados Unidos teriam um problema de dados. Não parecia haver uma estratégia nacional para controlar o vírus, e casos estavam surgindo em pontos críticos esporádicos em todo o país. Com uma resposta tão colcha de retalhos, provavelmente seria difícil obter informações de âmbito nacional sobre as pessoas que ficaram doentes.
Outros pesquisadores em todo o país estavam identificando problemas semelhantes. Em Seattle, Adam Wilcox, diretor de análise da UW Medicine, estava entrando em contato com colegas. A cidade foi o primeiro hotspot COVID-19 dos EUA. “Tínhamos 10 vezes mais dados, em termos de teste bruto, do que outras áreas”, diz ele. Ele queria compartilhar esses dados com outros hospitais, para que eles tivessem essas informações em mãos antes que os casos COVID-19 começassem a aumentar em sua área. Todos queriam colocar o máximo de dados possível nas mãos do maior número de pessoas possível, para que pudessem começar a entender o vírus.
TODOS QUERIAM COLOCAR O MÁXIMO DE DADOS POSSÍVEL NAS MÃOS DO MAIOR NÚMERO DE PESSOAS POSSÍVEL
Haendel estava em uma boa posição para ajudar a fazer isso acontecer. Ela é presidente do National Center for Data to Health (CD2H), um programa do National Institutes of Health que trabalha para melhorar a colaboração e o compartilhamento de dados dentro da comunidade de pesquisa médica. Então, uma semana em março, logo depois de começar a trabalhar em casa e tirar seu filho do 10º ano da escola, ela começou a tentar descobrir como usar os projetos de compartilhamento de dados existentes para ajudar a combater esta nova doença.
A solução em que Haendel e CD2H pousaram parece simples: um banco de dados anônimo e centralizado de registros de saúde de pessoas com teste positivo para COVID-19. Os pesquisadores poderiam usar os dados para descobrir por que algumas pessoas ficam muito doentes e outras não, como condições como câncer e asma interagem com a doença e quais tratamentos acabam sendo eficazes.
Mas nos Estados Unidos, construir esse tipo de recurso não é fácil. “O sistema de saúde dos Estados Unidos é muito fragmentado”, diz Haendel. “E porque não temos saúde centralizada, isso também significa que não temos dados de saúde centralizados.” Os hospitais, citando questões de privacidade, não gostam de fornecer dados de saúde de seus pacientes. Mesmo que os hospitais concordem em compartilhar, todos eles usam maneiras diferentes de armazenar informações. Em uma instituição, a classificação “feminino” poderia entrar em registro como um, e “masculino” poderia entrar em dois - e na seguinte, eles seriam revertidos.
“O SISTEMA DE SAÚDE DOS EUA É MUITO FRAGMENTADO”
Emergências, no entanto, sempre violam as normas. “Nada como uma pandemia para trazer à tona o que há de melhor em uma instituição”, diz Haendel. E depois de apenas alguns meses de trabalho alucinante do CD2H e colaboradores em todo o país, o National COVID Cohort Collaborative Data Enclave, ou N3C, foi aberto aos pesquisadores no início de setembro. Agora que está em vigor, pode ajudar a fortalecer as respostas à pandemia no futuro. É diferente de tudo o que veio antes, em tamanho e escopo, diz Haendel. “Nenhum outro recurso já tentou fazer isso antes.”
Silos institucionais
Os registros de saúde dos pacientes são bastante acessíveis aos cientistas - de acordo com as leis de privacidade da saúde, os registros podem ser usados para pesquisas, desde que as informações de identificação (como nomes e locais) sejam removidas. O problema é que os pesquisadores geralmente se limitam aos registros dos pacientes nos locais em que trabalham. O conjunto de dados só pode incluir tantos pacientes quanto a instituição trata e é geograficamente restrito . Os pesquisadores não podem ter certeza de que os dados do paciente na cidade de Nova York seriam equivalentes aos dados do paciente no Alabama. Usar informações de vários lugares ajudaria a garantir que os resultados fossem os mais representativos possíveis.
Mas pode ser arriscado para as instituições compartilhar e combinar seus dados, diz Wilcox. Mover dados fora do controle de uma organização pode causar violação de dados, o que pode levar à desconfiança do paciente, abrir a instituição para questões legais ou criar outras desvantagens competitivas, diz ele. Eles precisam equilibrar todas essas preocupações com os benefícios potenciais. “A organização precisa aprovar. isso é uma boa ideia? Queremos participar? ” Wilcox diz.
As instituições costumam responder a essas perguntas com um "não". Eles querem manter a propriedade e o controle sobre seus próprios dados, diz Anita Walden, diretora assistente da CD2H. A pandemia mudou essa cultura. Pessoas que normalmente relutam em participar de programas como este estão subitamente all-in, diz ela. “Por causa do COVID-19, as pessoas só querem fazer o que podem.”
“AS PESSOAS SÓ QUEREM FAZER O QUE PODEM”
Fazer com que as instituições enviassem seus dados foi apenas o primeiro passo. Em seguida, os especialistas tiveram que transformar esses dados em algo útil. Todas as instituições médicas coletam e registram informações sobre saúde de maneiras ligeiramente diferentes e não há incentivos para padronizar seus métodos. Muitas instituições gastaram centenas de milhões de dólares para configurar seus registros médicos eletrônicos - elas não querem mudar as coisas, a menos que seja absolutamente necessário.
“É como virar o Titanic neste ponto”, diz Emily Pfaff, que lidera a equipe da N3C combinando dados de diferentes instituições. As empresas que fazem os softwares para prontuário eletrônico, como a Epic, também não disponibilizam suas estratégias de armazenamento de dados para pesquisadores externos. “Se você deseja praticar ciência aberta com dados clínicos, o que eu acho que muitos de nós fazemos, você não conseguirá fazer isso com os dados formatados da maneira que o prontuário eletrônico faz”, diz ela. “Você tem que transformar esses dados.”
Países como o Reino Unido, que têm sistemas de saúde centralizados, não precisam lidar com os mesmos problemas: os dados de todos os pacientes do Serviço Nacional de Saúde do país já estão em um só lugar. Em maio, os pesquisadores publicaram um estudo que analisou registros de mais de 17 milhões de pessoas para encontrar fatores de risco para morte por COVID-19.
Mas nos EUA, para o N3C, não é tão simples. Em vez de os dados de um paciente COVID-19 irem diretamente para um banco de dados nacional, o novo processo é muito mais complexo. Digamos que uma mulher grávida vá ao médico com sintomas do que ela acredita ser COVID-19. Ela faz o teste e o resultado dá positivo. Esse resultado aparece em seu registro de saúde. Se seu provedor de serviços de saúde estiver participando do banco de dados N3C, esse registro será sinalizado. “Então, seu histórico de saúde tem a chance de ser pego por nossa rede, porque o que nossa rede está procurando, entre outras coisas, é um teste COVID positivo”, diz Pfaff.
“O QUE NOSSA REDE ESTÁ PROCURANDO, ENTRE OUTRAS COISAS, É UM TESTE COVID POSITIVO”
Seus dados então viajam para um banco de dados, onde um programa (que teve que ser criado do zero) transforma as informações sobre os tratamentos do paciente e as condições pré-existentes em um formato padronizado. Em seguida, ele será enviado para o enclave de dados do N3C, será submetido a uma verificação de qualidade e, sem o nome dela ou o nome da instituição de origem do registro, estará disponível para os pesquisadores.
Quase 70 instituições iniciaram o processo para contribuir com dados para o enclave. Os dados de 20 sites passaram por todo o processo e estão acessíveis aos pesquisadores. No final de setembro, o banco de dados continha cerca de 65.000 casos COVID-19, diz Pfaff, e cerca de 650.000 casos não COVID-19 (que podem ser usados como controles). Não há meta numérica específica, diz ela. “Nós levaríamos o máximo possível.”
Usando os dados
Enquanto alguns especialistas estavam trabalhando para incluir instituições médicas no projeto e outros descobrindo como harmonizar uma quantidade enorme de dados, outros ainda estavam se organizando para descobrir o que, exatamente, queriam fazer com as informações resultantes. Eles se dividiram em um punhado de grupos de trabalho, cada um focado em uma área diferente: um focado na interseção de diabetes e COVID-19, por exemplo, e outro em lesões renais.
Elaine Hill, economista de saúde da Universidade de Rochester, está liderando um grupo focado em gravidez e COVID-19. A primeira coisa que eles esperam fazer, diz ela, é descobrir quantas pessoas tinham o vírus quando deram à luz - apenas alguns hospitais publicaram esses dados até agora. “Então, estamos interessados em entender como a infecção por COVID-19 afeta os resultados relacionados à gravidez para a mãe e o bebê”, diz ela. Graças ao banco de dados, eles poderão fazer isso com informações de âmbito nacional, não apenas dados de pacientes em um punhado de lugares.
Essa visão ampla do problema é um dos principais benefícios de um grande banco de dados nacional. Diferentes lugares nos Estados Unidos tinham diferentes políticas de prevenção COVID-19, diferentes regulamentações sobre bloqueios e diferentes demografias. Combiná-los dá uma imagem mais completa de como o vírus atingiu o país. “Torna possível lançar luz sobre coisas que não seríamos capazes apenas com meu grupo de Rochester”, diz Hill.
Alguns sintomas ou complicações do COVID-19 também são raros e um hospital pode atender apenas um ou dois pacientes no total. “Quando você coleta dados em todo o país, tem uma população maior e pode observar as tendências nessas condições mais raras”, diz Walden. Conjuntos de dados maiores também podem permitir que os analistas usem técnicas de aprendizado de máquina mais complicadas.
O PROJETO PODE OFERECER UM PLANO PARA UM MELHOR COMPARTILHAMENTO DE DADOS NO FUTURO
Se tudo correr bem com o N3C, o projeto pode oferecer um plano para melhor compartilhamento de dados no futuro. Mais do que isso, pode oferecer uma ferramenta concreta para projetos futuros - agora existe o código necessário para limpar, transformar e mesclar dados de vários hospitais. “Quase sinto que está construindo uma infraestrutura pronta para uma pandemia para o futuro”, diz Pfaff. E agora que as instituições de pesquisa já compartilharam dados uma vez - mesmo que em circunstâncias únicas - elas podem estar mais dispostas a fazer isso novamente no futuro.
“Daqui a cinco anos, o maior valor desse conjunto de dados não serão os dados”, diz Wilcox. “Devem ter sido os métodos que aprendemos tentando fazê-lo funcionar.”
O Avance Network é uma comunidade fácil de usar que fornece segurança de primeira e não requer muito conhecimento técnico. Com uma conta, você pode proteger sua comunicação e seus dispositivos. O Avance Network não mantém registros de seus dados; portanto, você pode ter certeza de que tudo o que sai do seu dispositivo chega ao outro lado sem inspeção.