Medindo a "bolha de filtro": como o Google está influenciando o que você pensa

Ao longo dos anos, houve uma discussão considerável sobre o problema do "filtro de bolha" do Google. Simplificando, é a manipulação de seus resultados de pesquisa com base em seus dados pessoais. Na prática, isso significa que os links são movidos para cima ou para baixo

A bolha do filtro é particularmente perniciosa quando se procura tópicos políticos. Isso porque os eleitores indecisos e inquisitivos recorrem aos mecanismos de busca para conduzir pesquisas básicas sobre candidatos e questões no momento crítico em que estão formando suas opiniões sobre eles. Se eles estão recebendo informações que são balançadas para um lado por causa de suas bolhas de filtro pessoais, isso pode ter um efeito significativo sobre os resultados políticos em conjunto.

 

Veja também: O que o Google sabe sobre mim?

 

Em 2012, publicamos um estudo mostrando que a bolha do filtro do Google pode ter influenciado significativamente as eleições presidenciais dos EUA em 2012, ao inserir dezenas de milhões de links para Obama, mais do que para Romney no período que antecedeu a eleição. Nossa pesquisa inspirou um estudo independente do Wall Street Journal (paywall):

 

Um exame do Wall Street Journal descobriu que o mecanismo de busca geralmente personaliza os resultados de pessoas que recentemente pesquisaram "Obama" - mas não aqueles que procuraram recentemente por "Romney".

 

Agora, após a eleição presidencial dos EUA em 2016 e outras eleições recentes, há um novo interesse justificado em examinar as maneiras pelas quais as pessoas podem ser influenciadas politicamente online. Nesse contexto, conduzimos outro estudo para examinar o estado do problema das bolhas de filtro do Google em 2018.

 

Resumo das conclusões

O Google afirmou ter tomado medidas para reduzir seu problema de bolha de filtro, mas nossa pesquisa mais recente revela uma história muito diferente. Com base em um estudo de pessoas que inserem termos de pesquisa idênticos ao mesmo tempo, descobrimos que:

  1. A maioria dos participantes viu resultados exclusivos para eles. Essas discrepâncias não podem ser explicadas por alterações no local, no horário, pelo login no Google ou pelas alterações no algoritmo de teste do Google para um pequeno subconjunto de usuários.
  2. Na primeira página dos resultados da pesquisa, o Google incluiu links para alguns participantes que não incluíam para outros, mesmo quando desconectados e no modo de navegação privada.
  3. Os resultados nas infoboxes de notícias e vídeos também variaram significativamente. Embora as pessoas pesquisassem ao mesmo tempo, as pessoas mostravam diferentes fontes, mesmo depois de contabilizar a localização.
  4. O modo de navegação privada e a exclusão do Google ofereceu muito pouca proteção contra bolhas de filtro. Essas táticas simplesmente não fornecem o anonimato que a maioria das pessoas espera. Na verdade, simplesmente não é possível usar a pesquisa do Google e evitar a bolha do filtro.

 

Para os interessados ​​em mais detalhes, escrevemos tudo abaixo, bem como fornecemos os dados e o código subjacentes. Esperamos que este trabalho incentive um estudo mais aprofundado desta importante questão.

Metodologia

Pedimos aos voluntários nos EUA que pesquisassem "controle de armas", "imigração" e "vacinas" (nessa ordem) às 21h ET de domingo, 24 de junho de 2018. Voluntários realizaram pesquisas primeiro no modo de navegação privada e desconectaram Google e, em seguida, novamente não no modo privado (ou seja, no modo "normal"). Nós compilamos 87 conjuntos completos de resultados - 76 no desktop e 11 no celular. Observe que restringimos o estudo aos EUA porque países diferentes têm índices de pesquisa diferentes.

Durante a análise dos resultados da pesquisa, analisamos apenas os domínios de primeiro nível dos sites, por exemplo, www.cdc.gov/features/vaccines-travel e www.cdc.gov/vaccines/adults , ambos seriam tratados como apenas cdc.gov .

Encontrar # 1: a maioria das pessoas viu resultados exclusivos para elas, mesmo quando desconectadas e no modo de navegação privada.

Para contar variantes de resultados, notamos a ordem dos principais elementos: os links orgânicos (regulares), a infobox de notícias (Top Stories) e a caixa de infobox de vídeos. Ignoramos anúncios, seções que contêm pesquisas relacionadas e outras infoboxes. Havia variações nesses também, mas não os consideramos.

Uma nota rápida sobre a ordenação de links: você pode pensar que, desde que os mesmos links sejam mostrados aos usuários, a ordenação deles é relativamente sem importância, mas esse não é o caso. Um determinado link recebe apenas cerca de metade dos cliques do link antes dele e o dobro de cliques que o link depois dele. Em outras palavras, o pedido de links é muito importante porque as pessoas clicam no primeiro link muito mais do que no segundo e assim por diante.

A quantidade de variações que vimos para cada termo de pesquisa está listada abaixo. Para esta parte do estudo, excluímos os resultados em dispositivos móveis porque o número de infoboxes exibidas pode variar significativamente entre dispositivos móveis e computadores. É por isso que diz 76 participantes em vez do total total de 87. Também controlamos a localização (mais sobre isso abaixo).

Modo de navegação privada (e desconectado):

  • "controle de armas": 62 variações com 52/76 participantes (68%) vendo resultados únicos.
  • "imigração": 57 variações com 43/76 participantes (57%) vendo resultados únicos.
  • "vacinações": 73 variações com 70/76 participantes (92%) vendo resultados únicos.

Normal mode:

  • "controle de armas": 58 variações com 45/76 participantes (59%) vendo resultados únicos.
  • "imigração": 59 variações com 48/76 participantes (63%) vendo resultados únicos.
  • "vacinações": 73 variações com 70/76 participantes (92%) vendo resultados únicos.

 

Sem bolha de filtro, seria de se esperar uma variação muito pequena das páginas de resultados de pesquisa - quase todos veriam o mesmo conjunto de resultados. Não foi isso que encontramos.

Em vez disso, a maioria das pessoas viu resultados exclusivos para elas. Também encontramos a mesma variação no modo de navegação privada e desconectamos do Google em relação ao modo normal.

Agora, algumas variações nos resultados de pesquisa são esperadas devido a dois fatores que controlamos. Primeiro, os resultados da pesquisa podem mudar com o tempo, como a inclusão de links sensíveis ao tempo. Nós controlamos esse fator fazendo com que todos pesquisassem ao mesmo tempo.

Em segundo lugar, os resultados da pesquisa podem ser alterados por local, como a inclusão de artigos de notícias locais. Controlamos esse fator verificando todos os links manualmente para essa possibilidade, comparando-os com a cidade e estado do voluntário. Vimos muito poucos links locais para controle de armas (1 link orgânico, 1 link infobox de notícias) e imigração (0), embora mais para vacinação (15 links orgânicos, 4 links infobox de notícias).

Para controlar esses links locais, substituímos todos eles pelo mesmo espaço reservado - localdomain.com para links orgânicos e "Local Source" para infoboxes - em todas as nossas análises. Esse ajuste significa que dois usuários cujos resultados diferiam apenas por um domínio local diferente no mesmo slot não seriam considerados diferentes. Curiosamente, esse ajuste não afetou significativamente a variação geral.

Outro motivo pelo qual você pode esperar alguma variação é o teste do algoritmo de pesquisa, em que você exibe resultados ligeiramente diferentes para pessoas diferentes. Nesse caso, você esperaria ver a maioria das pessoas vendo os mesmos resultados, com algumas pessoas vendo pequenas diferenças. O que vimos, pelo contrário, foi a maioria das pessoas vendo resultados diferentes.

Descoberta # 2: o Google incluiu links para alguns participantes que não incluíam para outras pessoas.

Os resultados da pesquisa do Google normalmente possuem dez links orgânicos. Enquanto a ordenação desses links realmente importa (ou seja, o link nº 1 recebe ~ 40% dos cliques, link nº 2 ~ 20%, link nº 3 ~ 10% e assim por diante), também queríamos saber quantos domínios diferentes estavam sendo exibidos .

Sem bolha de filtro, espera-se que esse total seja em torno de dez. Nós vimos muito mais. No modo de navegação privada, desconectado do Google e com domínios locais substituídos por localdomain.com , veja os totais:

  • "controle de armas": 19 domínios diferentes
  • "imigração": 15 domínios diferentes
  • "vacinas": 22 domínios diferentes

 

Como você pode ver isso claramente na visualização acima, algumas pessoas mostraram um conjunto muito incomum de resultados em relação aos outros participantes, oferecendo alguns domínios vistos por mais ninguém. Se você fosse uma dessas pessoas, não teria como saber o que está perdendo.

Descoberta # 3: vimos variações significativas nas infoboxes de notícias e vídeos.

Também queríamos ver a variação dentro das notícias (Top Stories) e das infoboxes de vídeos. Também vimos uma variação significativa dentro deles, embora haja apenas três slots disponíveis. Novamente, são para o modo de navegação privada, desconectados do Google e com domínios locais substituídos por "Fonte local".

Infobox de notícias:

  • "controle de armas": 3 variações de 5 fontes, aparecendo para 75/76 pessoas. A variação mais comum foi vista por 69 pessoas (90%).
  • "imigração": 6 variações de 7 fontes, aparecendo para 76/76 pessoas. A variação mais comum foi vista por 35 pessoas (46%).
  • "vacinas": 2 variações de 3 fontes, aparecendo para 2/76 pessoas. Cada variação foi vista por uma pessoa (1%).

Infobox de vídeos:

  • "controle de armas": 12 variações de 7 fontes, aparecendo para 75/76 pessoas. A variação mais comum foi vista por 24 pessoas (32%).
  • "imigração": 6 variações de 6 fontes, aparecendo para 75/76 pessoas. A variação mais comum foi observada por 42 pessoas (55%).
  • "vacinas": Não mostrado nos resultados da pesquisa.

Como exemplo, a caixa de infobox Vídeos da consulta "imigração" mostrou as seis variações a seguir. Assim como nos resultados de pesquisa orgânica, a classificação é importante porque os segundo e terceiro slots recebem muito menos cliques.

  • Hoje, MSNBC, NBC News (mostrado para 42 participantes)
  • MSNBC, hoje, NBC News (mostrado para 26 participantes)
  • Hoje, MSNBC, MSNBC (mostrado para 4 participantes)
  • MSNBC, hoje, hoje (mostrado para 1 participante)
  • New York Times, CNN, MSNBC (mostrado para 1 participante)
  • Hoje, MSNBC, RealClearPolitics (mostrado para 1 participante)

Lembre-se de que as pessoas pesquisavam ao mesmo tempo e alteramos todos os links locais para o mesmo, portanto, essa variação não é explicada por hora ou local. E mais uma vez, algumas pessoas eram verdadeiros outliers; De fato, alguns não viram as infoboxes.

Encontrar # 4: modo de navegação privada e ser desconectado do Google ofereceu quase zero proteção de filtro de bolha.

Por fim, vimos a variação no modo de navegação privada (também conhecido como modo de navegação anônima) e desconectamos do Google da mesma maneira que no modo normal. A maioria das pessoas espera que ambos sejam desconectados e "incógnitos" forneçam algum anonimato. Infelizmente, esse é um equívoco comum, pois os sites usam endereços IP e impressões digitais do navegador para identificar pessoas que estão desconectadas ou no modo de navegação privada.

Se os resultados da pesquisa fossem mais anônimos nesses estados, esperaríamos que os resultados do modo de navegação privada de todos fossem semelhantes. Não foi o que vimos.

Para testar isso com mais rigor, pegamos os resultados orgânicos, excluindo anúncios e infoboxes, e:

  1. Atribuiu a cada domínio uma carta (por exemplo, A para nytimes.com, B para wsj.com, etc.).
  2. Fiz uma seqüência de letras para os resultados de cada pessoa, por exemplo, ABDFJKMSL.
  3. Comparou essas cordas para ver como elas eram parecidas umas com as outras.

Para fazer essa comparação, contamos as alterações de domínio entre diferentes conjuntos de resultados de pesquisa, reduzindo as diferenças para um número. Por exemplo, ABC - ACB é uma alteração. (Tecnicamente, usamos uma letra para representar cada domínio em cada resultado de pesquisa e calculamos a distância de edição entre eles.)

 

Vimos que, ao comparar aleatoriamente os modos privados das pessoas entre si, havia mais que o dobro da variação do que ao comparar o modo privado de alguém com o modo normal:

controlo de armas:

  • Média do modo de navegação normal e privado (mesmo usuário): 1.03
  • Média do modo de navegação privada (usuário aleatório): 2,89
  • Média do modo de navegação privada (cinco usuários mais próximos): 2,65

imigração:

  • Média do modo de navegação normal e privado (mesmo usuário): 1.38
  • Média do modo de navegação privada (usuário aleatório): 3,28
  • Média do modo de navegação privada (cinco usuários mais próximos): 2.80

vacinas:

  • Média do modo de navegação normal e privado (mesmo usuário): 2.23
  • Média do modo de navegação privada (usuário aleatório): 4,97
  • Média do modo de navegação privada (cinco usuários mais próximos): 4,25

 

Muitas vezes ouvimos falar em confusão de que o modo de navegação privada permite o anonimato na Web, mas essa descoberta demonstra que o Google adapta os resultados da pesquisa independentemente do modo de navegação. As pessoas não devem ser levadas a uma falsa sensação de segurança que o chamado modo "incógnito" as torna anônimas.

 

 

O Avance Network é uma comunidade fácil de usar que fornece segurança de primeira e não requer muito conhecimento técnico. Com uma conta, você pode proteger sua comunicação e seus dispositivos. O Avance Network não mantém registros de seus dados; portanto, você pode ter certeza de que tudo o que sai do seu dispositivo chega ao outro lado sem inspeção.


Strong

5178 Blog postovi

Komentari