Se você é uma das poucas pessoas que lê os termos de serviço , pode encontrar nas cláusulas de política de privacidade de várias empresas uma cláusula dizendo que elas podem coletar e vender seus dados a terceiros .
Os dados, dizem eles, são anonimizados, mas um novo estudo publicado na Nature Communications demonstra que, dependendo do que você compartilha, ainda é possível re-identificá-lo com uma precisão surpreendente. Pesquisadores do Imperial College de Londres e da Universidade de Louvain, na Bélgica, criaram um modelo de aprendizado de máquina que pode reidentificar indivíduos de conjuntos de dados anônimos, mesmo de "conjuntos de dados altamente incompletos".
Tais revelações acontecem em um momento em que mais pessoas desconfiam de empresas que vendem seus dados a terceiros e têm implicações negativas na privacidade dos dados anônimos atualmente armazenados (e compartilhados) que muitas empresas e instituições acadêmicas coletam e usam.
Como funciona o anonimato de dados?
A menos que você esteja completamente fora da rede , você está produzindo regularmente muitos dados pessoais - desde suas compras on-line e rotas de corrida até mais dados pessoais, como seus registros de saúde.
Esses dados são valiosos para anunciantes que desejam melhorar sua segmentação (leia-se: Cambridge Analytica) e para pesquisadores que procuram tendências em saúde pública, além de ensinar o reconhecimento facial à inteligência artificial .
Para proteger as identidades por trás dos dados, as “melhores práticas” gerais foram remover informações de identificação óbvia, como nomes, endereços de email e números de telefone e previdência social.
Técnicas de anonimização desatualizadas
Muitos dos métodos populares de anonimização permaneceram inalterados desde os anos 90, deixando de adotar técnicas de anonimização mais complexas em resposta à explosão de dados on-line desde então.
Houve vários casos, desde 2000 , de conjuntos de dados supostamente anônimos que foram liberados e posteriormente identificados novamente.
Em 2017, os jornalistas “ re-identificaram políticos em um conjunto de dados de histórico de navegação anônimo de 3 milhões de cidadãos alemães, descobrindo suas informações médicas e suas preferências sexuais”.
O novo estudo também aponta para trabalhos anteriores, nos quais os pesquisadores foram capazes de "identificar indivíduos em trajetórias anônimas de táxi em Nova York, viagens de compartilhamento de bicicleta em Londres, dados de metrô em Riga e conjuntos de dados de telefone celular e cartão de crédito".
Poucos pontos de dados necessários para identificar novamente você
Os pesquisadores responsáveis pelo estudo criaram um formulário on-line onde você pode testar suas chances de ser identificado (apenas para residentes nos EUA e no Reino Unido) de uma hipotética empresa de seguros de saúde com apenas três pontos de dados: sexo, data de nascimento e código postal.
Por exemplo, se você era um homem americano nascido em 12 de novembro de 1990 e atualmente morando no CEP 02139, há 54% de chance de que seu empregador ou vizinho possa identificá-lo.