Mas a prática de coleta de dados, em que grandes quantidades de informações públicas são coletadas de forma automatizada, tornou essa possibilidade quase uma garantia.
O que é coleta de dados?
Com a coleta de dados, as máquinas são usadas para registrar informações destinadas aos olhos humanos. Isso acontece mais comumente na forma de web scraping , em que um algoritmo copia dados de uma página da web enquanto se faz passar por um ser humano.
Web scrapers são comumente usados por empresas para manter o controle sobre os sites de seus concorrentes, procurando por novas atualizações, mudanças de estoque e flutuações de preços. Os sites de viagens coletam dados de diferentes sites de companhias aéreas e hotéis para mostrar aos usuários comparações de preços. Alguns varejistas também vasculham o Twitter e avaliam sites como o Yelp em busca de leads de vendas.
Porém, mais recentemente, a coleta de dados foi usada para copiar em massa informações de indivíduos disponíveis ao público nas redes sociais. Embora essas informações nunca tenham sido um segredo para começar, os invasores usando a coleta de dados foram capazes de criar coleções grandes e organizadas de dados para venda.
Extração de dados x rastreamento da web x invasão
Mecanismos de busca como o Google usam rastreadores da web para descobrir e registrar páginas na internet para que as pessoas possam pesquisá-las. É uma relação simbiótica entre rastreadores da web e sites: o Google quer saber que conteúdo os sites têm a oferecer a seus usuários, e os proprietários de sites (geralmente) desejam que esses usuários possam encontrá-los facilmente.
Os raspadores de dados, por sua vez, podem ser considerados parasitas . Eles não são clientes e não fornecem nenhum valor de volta ao site. Implementados em grande escala, eles podem sobrecarregar os servidores da web e tornar os sites mais lentos para usuários legítimos. Você já teve que resolver um CAPTCHA para “provar que você não é um robô”? Em parte, é para evitar a eliminação de dados.
Não é que os sites não queiram nenhuma outra máquina mexendo em seus dados. Muitos sites fornecem APIs, ou interfaces de programação de aplicativos, software que permite que aplicativos legítimos e seus algoritmos acessem bancos de dados sem entupir os canos dos clientes. Mas quando um programa não usa uma API e, em vez disso, tenta analisar os dados de uma página da web voltada para o público, isso é coleta de dados.
Se não for verificada, a extração de dados pode ser um grande problema para as empresas e seus clientes, em uma escala que está começando a rivalizar com os hacks e violações de dados mais tradicionais .
Também existem nuances quando se trata da diferença entre hacking e extração de dados. Hacking é análogo ao roubo: um invasor obtém acesso aos dados que estavam protegidos de alguma forma, geralmente por uma senha.
A coleta de dados é moralmente confusa. Os dados em questão já estavam tecnicamente disponíveis. Por exemplo, as companhias aéreas já tornam suas tarifas aéreas públicas para ajudar clientes em potencial, então se o bot de um concorrente quiser a mesma informação, isso é realmente "roubo"?
A extração de dados é legal?
O scraping da Web é legal, em teoria. Digamos que você esteja copiando e colando texto de um recurso gratuito como a Wikipedia e decida escrever um script automatizado para facilitar seu trabalho. Isso é perfeitamente legal e não faz mal a ninguém.
Muitos sites, no entanto, têm termos de serviço que proíbem explicitamente a extração de dados, mas as consequências de sua violação podem variar drasticamente. Se a perda foi pequena em escala, você pode simplesmente perder o acesso ao serviço. Mas você também pode enfrentar uma ação judicial, especialmente se a raspagem foi em grande escala o suficiente para impactar seus resultados financeiros.
Foi isso que aconteceu quando o eBay processou o Bidder's Edge, um serviço que agregava dados de leilão extraídos do eBay, resultando em aproximadamente 100.000 solicitações extras de servidor por dia. O eBay argumentou que a Bidder's Edge cometeu “invasão de bens móveis” ao interferir em seus negócios, resultando em um acordo não revelado em favor do eBay.
Outras empresas seguiram o exemplo, notadamente Craigslist (v. Padmapper), QVC (v. Resultly) e LinkedIn (v. HiQ) , estabelecendo cada vez mais precedentes para ações judiciais contra raspadores de dados.
A extração de dados prejudica a privacidade individual
Até recentemente, a raspagem era um problema principalmente para as empresas. Mas quando se trata de mídia social - onde “o produto é você ” - a extração de dados pode ser um problema real para a privacidade pessoal.
No início deste ano, dados pessoais de mais de 533 milhões de usuários do Facebook, incluindo números de telefone, endereços de e-mail e nomes completos, apareceram em um fórum de hackers . Ao contrário de outras violações de dados importantes, esses dados não foram “hackeados” per se. Até 2019, ele estava disponível publicamente por meio de uma lacuna no recurso de importação de contatos do Facebook e era simplesmente descartado.
Talvez a aplicação mais polêmica de coleta de dados venha de uma empresa chamada Clearview AI. Uma joint venture de um desenvolvedor de tecnologia australiano e um político americano, Clearview usa tecnologia de reconhecimento facial para fornecer aos departamentos de polícia acesso a um banco de dados de mais de 3 bilhões de fotos de rostos retirados da mídia social . Insira uma foto do rosto de um suspeito e a saída serão todas as postagens disponíveis que contenham esse rosto.
A polícia diz que o produto da Clearview é extremamente eficaz na captura de criminosos, especialmente aqueles que não aparecem nos bancos de dados oficiais de aplicação da lei. Casos estagnados foram resolvidos em poucos minutos porque o suspeito apareceu por acaso no fundo de uma foto recente de um amigo no Facebook.
A Clearview afirma que seu banco de dados de mais de 3 bilhões de fotos é válido porque cada uma estava publicamente disponível na Internet no momento em que foi copiada. Se você não quiser que suas fotos apareçam no banco de dados, basta definir as configurações de compartilhamento como “privado”.
Mas, é claro, isso não excluirá retroativamente suas fotos que já foram apagadas. Também não ajuda as pessoas cujo rosto pode simplesmente aparecer no fundo da foto de outro usuário. E com milhões de pessoas postando fotos nas redes sociais a cada segundo, isso está cada vez mais difícil de evitar.
Há pouco que você possa fazer para evitar que qualquer informação existente sobre você online seja destruída, limitando as fotos e detalhes pessoais que você divulgou.
O futuro da coleta de dados
Por enquanto, as regulamentações não acompanharam a prática de coleta de dados, mas há sinais de resistência legal. As autoridades australianas ordenaram recentemente que Clearview removesse fotos de australianos de seus bancos de dados. Clearview afirma que o pedido não tem jurisdição porque Clearview não “faz negócios” na Austrália. Mas com um banco de dados de bilhões de rostos humanos, as leis baseadas em fronteiras físicas são difíceis de aplicar.
A legislação tradicional será suficiente para controlar os efeitos da eliminação de dados sobre a privacidade pessoal? É uma questão em aberto e, infelizmente, provavelmente será testada várias vezes.