Falhas de big data que precisamos resolver

Big data é incrível com certeza, mas como qualquer outra tecnologia, especialmente uma emergente, tem problemas.

Vamos dar uma olhada no que pode dar errado com as implementações de big data.

 

Nos últimos anos, houve muitas discussões em torno de big data. Essas conversas geralmente são centradas nas oportunidades incríveis que a tecnologia oferece. O subproduto dessas discussões é que o uso de big data pode ser um tanto assustador. Embora concordemos que o big data é incrível, assim como qualquer tecnologia emergente, ele contém alguns problemas. Neste artigo, veremos o que pode potencialmente dar errado com as implementações de big data.

 

Sem privacidade para você!

 

Geralmente, quando as pessoas pensam sobre possíveis problemas de big data, a primeira e muitas vezes a última coisa que vem à mente é a privacidade .

 

O nome fala por si: Big data depende da coleta de muitas informações, e quanto mais privadas essas informações são, mais eficientemente os algoritmos podem chegar a algumas conclusões não óbvias. Para simplificar, os dados privados são o pó de fada de toda aquela poderosa magia do Big Data .

 

Este pó de fada tende a ser espalhado com frequência e fica preso em alguns cantos escuros e assim por diante. No entanto, é mais do que isso: há todo um conjunto de questões menos triviais, que estão ligadas umas às outras de uma forma complicada.

 

É ciência baby (não realmente)

 

As pessoas consideram as soluções de big data como ciência. O problema, porém, é que os algoritmos são na verdade mais parecidos com engenharia. Grande diferença.

 

Pense nisso como física versus foguetes. A física é uma ciência sem questionamentos: cada peça dela foi pesquisada e comprovada, tanto teórica quanto experimentalmente; então foi verificado pela comunidade científica, porque é assim que a ciência funciona.

 

Além disso, a ciência está sempre aberta; portanto, tudo pode ser verificado novamente a qualquer momento por qualquer pessoa interessada. E se alguma falha importante for revelada ou novas teorias surgirem, é sempre uma questão de discussão para a comunidade científica global.

 

[Mergulhe fundo no mundo da tecnologia e cadastre-se no Avance Network a verdadeira comunidade criptografada]

 

Foguetes são apenas estruturas de engenharia baseadas em certos princípios físicos. E, como você sabe muito bem, com foguetes as coisas vão facilmente para o sul se o design não for bom o suficiente. Ou se as condições estiverem "erradas" - o que é basicamente o mesmo, pois significa que o projeto não é bom o suficiente para essas condições.

 

Você não pode discutir com a matemática, pode?

Uma das consequências desse mal-entendido é a falsa autoridade. As pessoas precisam aceitar as decisões de algoritmos de big data como confiáveis ​​e não podem discutir com eles. Exceto para matemáticos profissionais, que poderiam potencialmente refutar a competência deste ou daquele modelo ou algoritmo de big data, se fossem capazes de pesquisá-lo. Mas eles são realmente capazes de fazer isso?

 

Caixa preta é tão preta

 

Mesmo se você estiver bem equipado com conhecimento e experiência em matemática e quiser explorar exatamente como este ou aquele algoritmo funciona, o acesso raramente é concedido. Isso ocorre porque o software é comercial e seu código-fonte é proprietário. Os pesquisadores normalmente são desconsiderados ao notar que eles não permitem que você examine o que é proprietário. Tipo como "obrigado pelo seu interesse, tenha uma boa noite".

 

Em sua palestra chamada 'Weapons of Math Destruction', a matemática e ativista de direitos humanos Cathy O'Neil, fala sobre a modelagem de valor agregado, que é um algoritmo para avaliação de professores nos EUA:

 

“Meu amigo que dirige uma escola em Nova York queria entender esse [algoritmo]. Ela está em uma escola de matemática e ciências, então ela pensou que poderia entender isso. Ela pediu a seu contato do Departamento de Educação que lhe enviasse informações sobre o assunto. Eles disseram 'Oh, você não gostaria de saber sobre isso, é matemática!' ”

 

“Ela insistiu e finalmente conseguiu um white paper e me mostrou. Era muito abstrato para ser útil. Então, apresentei uma solicitação à Lei de Liberdade de Informação para obter o código-fonte, que foi negada. Mais tarde descobri que o think tank em Madison, WI, que é responsável por este modelo, tem um contrato de licenciamento [que afirma que] ninguém consegue ver dentro do modelo. ”

 

“Ninguém no Departamento de Educação da cidade de Nova York entende esse modelo, nenhum professor consegue entender sua pontuação nem pode melhorar porque não é dito como.”

 

Algo dentro, tudo fora

 

Como os algoritmos são opacos, os dados de entrada também são opacos. Um operador de software de big data não pode ter certeza de quais dados foram processados ​​pelo algoritmo e quais não foram. Portanto, alguns dados podem afetar a saída duas vezes, a primeira vez por algoritmo e a segunda vez por operador. Ou, ao contrário, alguns dados significativos podem ser descartados, se o operador erroneamente pensar que já está incluído no resultado, mas na verdade não foi considerado pelo algoritmo.

 

Por exemplo, a polícia entra em um bairro dominado pelo crime. O software deles avisa que um homem na frente deles tem 55% de chance de ser um ladrão. O homem carrega uma mala suspeita, mas os policiais não sabem se o algoritmo leva isso em consideração ou não. Eles têm que decidir se a mala deixa o homem mais ou menos desconfiado.

 

Sem mencionar que os dados de entrada podem simplesmente conter erros ou não conter algumas informações de vital importância para uma previsão correta.

 

O copo está meio cheio ou meio vazio?

 

As informações de saída também não são muito transparentes e podem ser mal interpretadas. Os números podem ser subjetivos e duas pessoas diferentes podem interpretar os mesmos números de maneiras completamente diferentes. Qual é a probabilidade de 30%, por exemplo? A interpretação pode variar de 'provavelmente não' a ​​'provavelmente sim', dependendo de muitos fatores que você nunca pode prever.

 

Pior ainda, essa pontuação de probabilidade pode ser usada como meio de competição: apesar do fato de que a probabilidade de uma pessoa, por exemplo, condenar algum tipo de crime não seja alta o suficiente para ser considerada seriamente, em algumas circunstâncias pode ser usada para interromper certa parte das pessoas.

 

Por exemplo, eles usam esses algoritmos para liberação de segurança nos EUA, tentando prever a probabilidade de uma pessoa divulgar informações. E uma vez que há muitas pessoas competindo por empregos, eles ficam bastante confortáveis ​​em eliminar algumas delas exatamente nesta base, mesmo que a probabilidade não seja realmente significativa, mas apenas um pouco acima da média.

 

Sem preconceito?

 

Considerando todas as questões mencionadas acima, é seguro dizer que uma das vantagens mais amplamente promovidas do big data - que é 'sem polarização' - não é totalmente correta. Uma decisão feita por humanos com base em cálculos feitos por algoritmos feitos por humanos ainda é uma decisão feita por humanos. Pode ser tendencioso ou não tendencioso. O problema é que, com algoritmo obscuro e dados opacos, você realmente não pode dizer. E você não pode realmente mudá-lo, já que está codificado em software.

 

Bem-vindo ao lado negro, Anakin

 

Os algoritmos de previsão também são vulneráveis ​​a ciclos de feedback e profecias autorrealizáveis. Por exemplo, um algoritmo usado pelo Departamento de Polícia de Chicago pode marcar uma criança como potencialmente perigosa. Então, os policiais começam a 'ficar de olho nele', visitando sua casa e assim por diante. Kid vê que a polícia o trata como um criminoso, apesar do fato de ele não ter feito nada ainda, e começa a agir de acordo. E eventualmente ele se torna um membro de gangue, só porque foi ofendido pela polícia.

 

Ou, como Whitney Merrill colocou em sua palestra 'Predicting Crime in a Big Data World' no Chaos Communication Congress 32 , “Se um policial vai trabalhar em uma área, e um algoritmo diz:“ Você tem 70% de probabilidade de encontrar um ladrão nesta área ”, eles vão encontrar o ladrão porque disseram 'Você pode encontrar um ladrão'?”

 

Sem opt-out

 

Se alguma organização governamental ou comercial emprega algoritmos de big data e você não gosta disso, não pode simplesmente dizer 'Já chega, estou desistindo'. Não que alguém vá perguntar se você quer ser objeto de pesquisa de big data ou não. Ou pior: não que eles necessariamente dirão que você é mesmo um sujeito.

 

Bem, não me interpretem mal: não quero dizer que todas as falhas acima mencionadas sejam uma boa razão para a humanidade rejeitar algoritmos de previsão avançados. Obviamente, o big data está crescendo e definitivamente veio para ficar. Mas talvez seja o momento certo para pensar sobre seus problemas, até que não seja tarde demais para corrigi-los.

 

Devemos deixar os algoritmos e os dados de entrada mais transparentes e protegidos, permitir que pesquisadores independentes tenham acesso ao código-fonte, acertar a legislação, começar a informar as pessoas o que realmente está acontecendo com essa coisa de 'matemática'. E definitivamente temos que aprender com os erros anteriores, afinal.

 

 

O Avance Network é uma comunidade fácil de usar que fornece segurança de primeira e não requer muito conhecimento técnico. Com uma conta, você pode proteger sua comunicação e seus dispositivos. O Avance Network não mantém registros de seus dados; portanto, você pode ter certeza de que tudo o que sai do seu dispositivo chega ao outro lado sem inspeção.


Strong

5178 Блог сообщений

Комментарии