As novas tecnologias de IA

Além dos vários eventos geopolíticos que definiram 2022, no nível tecnológico, foi o ano da IA. Eu também posso começar confessando: até muito recentemente, sempre que me perguntavam sobre IA em segurança cibernética, eu descartava isso como vaporware . Sempre soube que o aprendizado de máquina tinha muitas aplicações no mundo real; mas para nós, no mundo da infosec, a IA só foi usada nos lançamentos de produtos mais complicados. Para mim, “alimentado por IA” era apenas uma maneira elegante de os fornecedores dizerem “não temos base de conhecimento ou telemetria existente, então criamos algumas heurísticas”. Continuo convencido de que em mais de 95% dos casos, os produtos resultantes também continham pouca IA real. Mas o problema é que, enquanto as equipes de marketing estavam ocupadas colocando adesivos “AI” em qualquer produto que envolvesse k -means cálculo como parte de sua operação, o campo de IA real estava realmente progredindo.

O dia do acerto de contas para mim chegou quando experimentei o DALL-E 2 pela primeira vez (e logo depois, Midjourney ). Ambos os projetos permitem gerar imagens com base em descrições textuais e já causaram grande turbulência no mundo da arte.

modelos de linguagem

Nas palavras de Arthur C. Clarke, “qualquer tecnologia suficientemente avançada é indistinguível da magia”. Adoro como a tecnologia às vezes pode trazer esse sentimento de admiração para nossas vidas, mas esse sentimento infelizmente atrapalha quando tentamos pensar sobre as implicações ou limites de um novo avanço. Por esse motivo, acho que primeiro precisamos dedicar algum tempo para entender como essas tecnologias funcionam nos bastidores.

Vamos começar com ChatGPT. É um modelo de linguagem; em outras palavras, é uma representação da nossa linguagem. Como é o caso de muitos grandes projetos de aprendizado de máquina, ninguém sabe realmente como esse modelo funciona (nem mesmo o OpenAI, seus criadores). Sabemos como o modelo foi criado, mas é muito complexo para ser entendido formalmente. O ChatGPT, sendo o maior modelo de linguagem (público?) até hoje, tem mais de 175 bilhões de parâmetros. Para entender o que isso significa, imagine uma máquina gigante com 175 bilhões de botões que você pode ajustar. Toda vez que você envia um texto para o ChatGPT, esse texto é convertido em uma configuração para cada um desses botões. E, finalmente, a máquina produz a saída (mais texto) com base em sua posição. Há também um elemento de aleatoriedade, para garantir que a mesma pergunta nem sempre leve exatamente à mesma resposta (mas isso também pode ser ajustado).

Esta é a razão pela qual percebemos esses modelos como caixas-pretas: mesmo que você passasse a vida estudando a máquina, não está claro se você seria capaz de descobrir o propósito de um único botão (muito menos de todos eles). . Ainda assim, sabemos o que a máquina faz porque conhecemos o processo pelo qual ela foi gerada. O modelo de linguagem é um algoritmo que pode processar texto e foi alimentado com muito durante sua fase de treinamento: toda a Wikipedia, páginas da web raspadas, livros etc. Isso permitiu a criação de um modelo estatístico que conhece a probabilidade de ter uma palavra segue a outra. Se eu disser “rosas são vermelhas, violetas são”, você pode adivinhar com um grau relativamente alto de confiança que a próxima palavra será “azul”. Em poucas palavras, é assim que qualquer modelo de linguagem funciona. A tal modelo, terminar sua frase não é diferente de adivinhar qual sequência de palavras provavelmente seguirá sua pergunta com base em tudo o que foi lido antes. No caso do ChatGPT, havia mais uma etapa envolvida – chamada de ajuste fino supervisionado. Os “treinadores de IA” humanos tiveram vários bate-papos com o bot e sinalizaram todas as respostas consideradas problemáticas (imprecisas, tendenciosas, racistas, etc.) para que ele aprendesse a não repeti-las.

Se você não consegue entender a IA, arquive-a em “matemática” ou “estatística”: o objetivo desses modelos é a previsão. Ao usar o ChatGPT, desenvolvemos facilmente a sensação de que a IA “sabe” as coisas, pois é capaz de retornar informações contextualmente relevantes e específicas do domínio para consultas que vê pela primeira vez. Mas não entende o que qualquer uma das palavras significa: só é capaz de gerar mais texto que “parece” ser uma continuação natural do que foi dado. Isso explica por que o ChatGPT pode apresentar um argumento filosófico complexo, mas muitas vezes tropeça na aritmética básica: é mais difícil prever o resultado do cálculo do que a próxima palavra em uma frase.

Além disso, não tem memória: seu treinamento terminou em 2021 e a modelo está congelada. As atualizações vêm na forma de novos modelos (ou seja, GPT-4 em 2024) treinados em novos dados. Na verdade, o ChatGPT nem se lembra das conversas que você está tendo com ele: o histórico recente do bate-papo é enviado junto com qualquer novo texto que você digita para que o diálogo pareça mais natural.

Se isso ainda se qualifica como “inteligência” (e se isso é significativamente diferente da inteligência humana) será o assunto de acalorados debates filosóficos nos próximos anos.

Modelos de difusão

Ferramentas de geração de imagens como Midjourney e DALL-E são baseadas em outra categoria de modelos. Seu procedimento de treinamento, obviamente, se concentra na geração de imagens (ou coleções de pixels) em vez de texto. Na verdade, são necessários dois componentes para gerar uma imagem com base em uma descrição textual, e o primeiro é muito intuitivo. O modelo precisa de uma maneira de associar palavras a informações visuais, por isso é alimentado com coleções de imagens legendadas. Assim como no ChatGPT, acabamos com uma máquina gigante e inescrutável que é muito boa em combinar imagens com dados textuais. A máquina não tem ideia de como é o rosto de Brad Pitt, mas se já viu fotos suficientes dele, sabe que todas compartilham propriedades comuns. E se alguém enviar uma nova foto de Brad Pitt, a modelo poderá reconhecê-lo e dizer “sim, é ele de novo”.

A segunda parte, que achei mais surpreendente, é a possibilidade de realçar as imagens. Para isso, utilizamos um “modelo de difusão”, treinado em imagens limpas às quais gradualmente se adiciona ruído (visual) até que se tornem irreconhecíveis. Isso permite que o modelo aprenda a correspondência entre uma imagem borrada e de baixa qualidade e sua contraparte de resolução mais alta – novamente, em nível estatístico – e recrie uma boa imagem a partir de uma imagem ruidosa. Na verdade, existem produtos com inteligência artificial dedicados a remover o ruído de fotos antigas ou aumentar sua resolução.

Um exemplo de imagens de qualidade cada vez mais baixa usadas para treinar modelos de difusão com meu fiel avatar

Juntando tudo, somos capazes de sintetizar imagens: partimos de um ruído aleatório e o “aprimoramos” gradualmente, garantindo que ele contenha as características que correspondem ao prompt do usuário (uma descrição muito mais detalhada dos componentes internos do DALL-E pode ser encontrada aqui ).

os problemas errados

O surgimento de todas as ferramentas mencionadas neste artigo gerou uma forte reação do público, algumas das quais muito negativas. Existem preocupações legítimas sobre a irrupção abrupta da IA em nossas vidas, mas, em minha opinião, grande parte do debate atual se concentra nas questões erradas. Vamos abordá-los primeiro, antes de passar para o que eu acho que deveria ser o cerne da discussão em torno da IA.

DALL-E e Midjourney roubam de artistas reais

Em algumas ocasiões, vi essas ferramentas descritas como programas que fazem retalhos de imagens que já viram e depois aplicam uma espécie de filtros que permitem imitar o estilo do artista solicitado. Qualquer um que faça tal afirmação ou é ignorante das realidades técnicas dos modelos subjacentes, ou está argumentando de má-fé.

Conforme explicado acima, o modelo é completamente incapaz de extrair imagens ou mesmo formas simples das imagens nas quais é treinado. O melhor que pode fazer é extrair características matemáticas.

O que as pessoas acreditam que o DALL-E começa (à esquerda) versus o que o DALL-E realmente começa (à direita)

Não há como negar que muitos trabalhos protegidos por direitos autorais foram usados na fase de treinamento sem o consentimento explícito dos autores originais, e talvez haja uma discussão a ser feita sobre isso. Mas também vale ressaltar que os artistas humanos seguem exatamente o mesmo processo durante seus estudos: eles copiam pinturas de mestres e se inspiram nas obras de arte que encontram. E o que é a inspiração, senão a capacidade de capturar a essência de uma obra de arte combinada com o desejo de reexplorá-la?

DALL-E e Midjourney apresentam uma inovação no sentido de que são teoricamente capazes de obter inspiração de todas as imagens produzidas na história humana (e, provavelmente, de qualquer uma que produzirem a partir de agora), mas é uma mudança apenas de escala - não na natureza.

Evidência convincente de Wolfgang Amadeus Mozart roubando artistas durante sua fase de treinamento

IA torna as coisas muito fáceis

Tal crítica geralmente implica que a arte deve ser difícil. Essa sempre foi uma noção surpreendente para mim, já que o observador de uma obra de arte geralmente tem muito pouca ideia de quanto (ou quão pouco) esforço foi necessário para produzi-la. O debate não é novo: anos após o lançamento do Photoshop, várias pessoas ainda argumentam que a arte digital não é arte real . Aqueles que dizem que usar o Photoshop ainda requer habilidade, mas acho que também estão perdendo o foco. Quanta habilidade Robert Rauschenberg exigiu para colocar tinta branca em uma tela ? Quanta prática musical você precisa antes de poder executar o infame 4′33″ de John Cage ?

Mesmo que introduzíssemos a habilidade como critério para a arte, onde traçaríamos a linha na areia? Quanto esforço é esforço suficiente? Quando a fotografia foi inventada, Charles Baudelaire a chamou de “o refúgio de todo aspirante a pintor, todo pintor muito mal dotado ou muito preguiçoso para completar seus estudos” (e ele não estava sozinho nessa avaliação). Acontece que ele estava errado.

ChatGPT ajuda cibercriminosos

Com o surgimento da IA, veremos ganhos de produtividade em todos os setores. No momento, vários meios de comunicação e fornecedores estão fazendo tudo o que podem para pegar carona no hype do ChatGPT, que leva ao clickbait mais vergonhoso da história recente. Como escrevemos anteriormente, o ChatGPT pode ajudar os criminosos a redigir e-mails de phishing ou escrever códigos maliciosos - nenhum dos quais já foi um fator limitante. As pessoas familiarizadas com a existência do GitHub sabem que a disponibilidade de malware não é um problema para agentes mal-intencionados, e qualquer pessoa preocupada em acelerar o desenvolvimento deveria ter levantado essas preocupações quando o Copilot foi lançado.

Sei que é bobagem desmascarar um frenesi da mídia nascido de considerações econômicas mesquinhas em vez de preocupações genuínas, mas o fato é: a IA terá um tremendo impacto em nossas vidas e há questões reais a serem abordadas. Todo esse barulho só está atrapalhando.

Não há como voltar atrás

Não importa como você se sente sobre todas as ferramentas com tecnologia de IA lançadas em 2022, saiba que mais estão por vir. Se você acredita que o campo será regulamentado antes de ficar fora de controle, pense novamente: a resposta política que testemunhei até agora foi principalmente governos decidindo alocar mais fundos para pesquisa de IA enquanto eles ainda podem recuperar o atraso. Ninguém no poder tem interesse em desacelerar isso.

A quarta revolução industrial

A IA levará a – ou provavelmente já levou a – ganhos de produtividade. Quão grandes eles são/serão é difícil imaginar ainda. Se o seu trabalho consiste em produzir texto semi-inspirado, você deve se preocupar. Isso se aplica se você também for um designer visual trabalhando por comissão: sempre haverá clientes que desejam o toque humano, mas a maioria optará pela opção mais barata. Mas isso não é tudo: engenheiros reversos , advogados , professores , médicos e muitos outros devem esperar que seus empregos mudem profundamente.

Uma coisa a ter em mente é que o ChatGPT é um chatbot de uso geral. Nos próximos anos, modelos especializados surgirão e superarão o ChatGPT em casos de uso específicos. Em outras palavras, se o ChatGPT não puder fazer seu trabalho agora, é provável que um novo produto de IA lançado nos próximos cinco anos o faça. Nossos trabalhos, todos os nossos trabalhos, envolverão a supervisão da IA e a garantia de que sua saída esteja correta, em vez de fazê-lo nós mesmos.

É possível que a IA atinja uma parede de complexidade e não progrida mais - mas depois de errar várias vezes, aprendi a não apostar contra o campo. A IA mudará o mundo tanto quanto a máquina a vapor? Devemos esperar que não, porque mudanças brutais nos meios de produção mudam a estrutura da sociedade humana, e isso nunca acontece pacificamente.

Viés e propriedade de IA

Muito já foi dito sobre vieses nas ferramentas de IA que não voltarei a abordar. Um assunto mais interessante é a maneira como o OpenAI combate esses vieses. Como mencionado acima, o ChatGPT passou por uma fase de aprendizado supervisionado, onde o modelo de linguagem basicamente aprende a não ser fanático. Embora esse seja um recurso desejável, não se pode deixar de notar que esse processo efetivamente ensina um novo viés ao chatbot. As condições dessa fase de ajuste fino são opacas: quem são os heróis anônimos que sinalizam as respostas “ruins”? Trabalhadores mal pagos em países do terceiro mundo ou engenheiros do Vale do Silício sob efeito de ácido? (Spoiler: é o primeiro .)

Também vale lembrar que os produtos de IA não funcionarão para o bem comum. Os vários produtos desenhados no momento são de propriedade de empresas que sempre serão movidas, em primeiro lugar, por lucros que podem ou não se sobrepor aos melhores interesses da humanidade. Assim como uma mudança nos resultados de pesquisa do Google tem um efeito mensurável nas pessoas, os companheiros ou consultores de IA terão a capacidade de influenciar os usuários de maneiras sutis.

E agora?

Como a questão não parece mais ser se a IA está entrando em nossas vidas, mas quando, devemos pelo menos discutir como podemos nos preparar para isso.

Devemos ser extremamente cautelosos com o ChatGPT (ou qualquer um de seus descendentes) acabando em uma posição em que está tomando decisões sem supervisão: o ChatGPT é extremamente bom em demonstrar confiança, mas ainda assim erra muitos fatos. No entanto, haverá grandes incentivos para cortar custos e tirar os humanos do circuito.

Também prevejo que, na próxima década, a maior parte de todo o conteúdo disponível online (primeiro texto e imagens, depois vídeos e videogames) será produzida com IA. Também não acho que devemos contar muito com a sinalização automática de tal conteúdo funcionando de maneira confiável - apenas teremos que permanecer críticos com o que lemos online e enfrentar dez vezes mais ruído. Acima de tudo, devemos ter cuidado com os modelos especializados que estão surgindo em nosso caminho. O que acontece quando um dos Big Four treina um modelo com o código tributário e começa a perguntar sobre brechas? O que acontece quando um militar joga no ChatGPT e diz: “é, eu quero um pouco disso nos meus drones”?

A IA será incrível: assumirá muitas tarefas chatas, trará novas habilidades ao alcance de todos e dará início a novas formas de arte (sim). Mas a IA também será terrível. Se a história servir de indicação, ela levará a uma maior concentração de poder e nos empurrará ainda mais para o caminho do tecnofeudalismo . Isso mudará a forma como o trabalho é organizado e talvez até mesmo a nossa relação com o acervo de conhecimento da humanidade. Nós não vamos ter uma palavra a dizer sobre isso.

A caixa de Pandora agora está aberta.