O lixo gerado pela inteligência artificial está poluindo nossa cultura
Uso de IA é cada vez maior em artigos científicos e isso é uma grande preocupação
Cada vez mais, um monte de respostas sintéticas geradas por inteligência artificial vagam por nossos feeds e nossas buscas. Os riscos vão muito além do que está em nossas telas. Toda a cultura está sendo afetada pela inteligência artificial, uma infiltração insidiosa em nossas instituições mais importantes.
Falemos da ciência. Logo após o lançamento estrondoso do GPT-4, o mais recente modelo de inteligência artificial da OpenAI e um dos mais avançados atualmente, a linguagem da pesquisa científica começou a se transformar. Especialmente dentro do campo da própria inteligência artificial.
Um novo estudo neste mês examinou as revisões por pares dos cientistas —pronunciamentos oficiais dos pesquisadores sobre o trabalho dos outros que formam a base do progresso científico— em várias conferências científicas de prestígio que estudam inteligência artificial. Em uma dessas checagens, essas revisões usaram a palavra “meticuloso” quase 3.400% mais do que as avaliações do ano anterior. O uso de “louvável” aumentou cerca de 900% e “intrincado” em mais de 1.000%. Outras conferências importantes mostraram padrões semelhantes.
Tais formulações são, é claro, algumas das palavras da moda favoritas dos modernos modelos de linguagem como o ChatGPT. Em outras palavras, um número significativo de pesquisadores em conferências de inteligência artificial foram pegos entregando suas revisões por pares do trabalho dos outros para a inteligência artificial —ou, no mínimo, escrevendo-os com muita assistência da inteligência artificial. E quanto mais próximo de acabar o prazo, mais as revisões enviadas tinham uso de inteligência artificial.
Se isso te deixa desconfortável —especialmente por causa da falta de confiabilidade da inteligência artificial— ou se você acha que talvez não deveria ser a inteligência artificial revisando a ciência, mas sim os próprios cientistas, esses sentimentos destacam o paradoxo no debate dessa tecnologia: Não está claro qual é a linha ética entre fraude e uso regular.
Algumas fraudes geradas por inteligência artificial são fáceis de identificar, como o artigo de revista médica com um rato de desenho animado exibindo genitália enorme. Muitas outras são mais complicadas, como o caminho regulatório mal rotulado e alucinado descrito no mesmo artigo —um artigo que também foi revisado por pares (talvez, poderíamos especular, por outra inteligência artificial?).
E quando a inteligência artificial é usada de uma das maneiras pretendidas em sua criação —para ajudar na escrita? Recentemente, houve um alvoroço quando ficou óbvio que simples buscas em bancos de dados científicos retornavam frases como “Como um modelo de linguagem de inteligência artificial” em lugares onde os autores que dependiam da inteligência artificial haviam esquecido de cobrir seus rastros. Se os mesmos autores tivessem simplesmente apagado essas “digitais” acidentais, o uso de inteligência artificial para escrever seus artigos teria sido aceitável?
O que está acontecendo na ciência é um microcosmo de um problema muito maior. Postar nas redes sociais? Qualquer post viral no X (ex-Twitter) agora quase certamente inclui respostas geradas por inteligência artificial, desde resumos do post original até reações escritas na voz insossa da Wikipedia do ChatGPT, tudo para ganhar seguidores.
O Instagram está se enchendo de modelos gerados por inteligência artificial, e o Spotify, com músicas geradas por inteligência artificial. Publicar um livro? Em breve, na Amazon, muitas vezes aparecerão coleções geradas por inteligência artificial à venda que supostamente acompanham seu livro (que estão incorretos em seu conteúdo; eu sei porque isso aconteceu comigo).
Os principais resultados de busca do Google agora são na maioria das vezes imagens ou artigos gerados por inteligência artificial. Grandes veículos de mídia como a Sports Illustrated têm criado artigos feitos com a inteligência artificial atribuídos a perfis de autores igualmente falsos. Os profissionais de marketing que vendem métodos de otimização de mecanismos de busca se gabam abertamente de usar inteligência artificial para criar milhares de artigos spam para roubar tráfego de concorrentes.
E há o crescente uso de inteligência artificial generativa para criar vídeos prontos e baratos para crianças no YouTube. Alguns exemplos de saídas são horrores como videoclipes sobre papagaios onde as aves têm olhos dentro de olhos, bicos dentro de bicos, se transformando de forma inacreditável enquanto cantam em uma voz artificial “O papagaio na árvore diz olá, olá!”
As narrativas não fazem sentido, personagens aparecem e desaparecem aleatoriamente, informações básicas como os nomes das formas estão errados. Depois que identifiquei vários canais suspeitos em minha newsletter, The Intrinsic Perspective, o site Wired encontrou evidências do uso de inteligência artificial generativa na produção de algumas contas com centenas de milhares ou até milhões de inscritos.
Como neurocientista, isso me preocupa. Não é possível que a cultura humana contenha em si micronutrientes cognitivos —coisas como frases coesas, narrativas e continuidade de personagens— que os cérebros em desenvolvimento precisam? Supostamente, Einstein disse: “Se você quer que seus filhos sejam inteligentes, leia para eles contos de fadas. Se você quer que eles sejam muito inteligentes, leia mais contos de fadas.”
Mas o que acontece quando uma criança pequena está consumindo principalmente papinha de sonhos gerada por inteligência artificial? Nos encontramos no meio de um vasto experimento de desenvolvimento.
Há tanto lixo artificial na internet agora que as empresas de IA e os pesquisadores estão preocupados, não com a saúde da cultura, mas com o que vai acontecer com seus modelos. À medida que as capacidades da inteligência artificial aumentaram em 2022, escrevi sobre o risco de a cultura se tornar tão inundada com criações de IA que, quando futuras IAs fossem treinadas, o modelo anterior iria para o conjunto de treinamento, levando a um futuro de cópias de cópias de cópias, à medida que o conteúdo se tornava cada vez mais estereotipado e previsível.
Em 2023, os pesquisadores introduziram um termo técnico para como esse risco afetava o treinamento de IA: colapso do modelo. De certa forma, nós e essas empresas estamos no mesmo barco, remando através da mesma lama que flui para o nosso oceano cultural.
Com essa analogia desagradável em mente, vale a pena olhar para o que é, sem dúvida, a analogia histórica mais clara para nossa situação atual: o movimento ambiental e as mudanças climáticas. Assim como empresas e indivíduos foram levados a poluir pela inexorável economia disso, também a poluição cultural da IA é impulsionada por uma decisão racional de preencher o apetite voraz da internet por conteúdo da forma mais barata possível.
Embora os problemas ambientais estejam longe de serem resolvidos, houve um progresso inegável que manteve nossas cidades em sua maioria livres da fumaça da poluição e nossos lagos em sua maioria livres de esgoto. Como?
Antes de qualquer solução política específica, houve o reconhecimento de que a poluição ambiental era um problema que precisava de legislação externa. Influente para essa visão foi uma perspectiva desenvolvida em 1968 por Garrett Hardin, um biólogo e ecologista. Hardin enfatizou que o problema da poluição era impulsionado por pessoas agindo em seu próprio interesse, e que, portanto, “estamos presos em um sistema de ‘sujar nosso próprio ninho’, enquanto nos comportarmos apenas como agentes independentes, racionais e livres”.
Ele resumiu o problema como uma “tragédia dos normais”. Essa formulação foi fundamental para o movimento ambiental, que passaria a depender da regulamentação governamental para fazer o que as empresas sozinhas não poderiam ou não fariam.
Mais uma vez nos encontramos promovendo uma tragédia dos comuns: o interesse próprio econômico de curto prazo incentiva o uso de conteúdo barato de IA para maximizar cliques e visualizações, o que por sua vez polui nossa cultura e até enfraquece nossa compreensão da realidade. E até agora, as principais empresas de inteligência artificial estão se recusando a buscar maneiras avançadas de identificar o trabalho de IA—o que poderiam fazer adicionando padrões estatísticos sutis escondidos no uso de palavras ou nos pixels de imagens.
Uma justificativa comum para a passividade é que os editores humanos sempre poderiam mexer com quaisquer padrões implementados se soubessem o suficiente. No entanto, muitos dos problemas que estamos enfrentando não são causados por atores maliciosos motivados e tecnicamente habilidosos; em vez disso, são causados principalmente pelo fato de os usuários regulares não aderirem a uma linha de uso ético tão fina a ponto de ser praticamente inexistente. A maioria não estaria interessada em contramedidas avançadas para padrões estatísticos impostos em saídas que, idealmente, deveriam marcá-los como gerados por IA.
É por isso que os pesquisadores independentes foram capazes de detectar o uso de inteligência artificial no sistema de revisão por pares com uma precisão surpreendentemente alta: eles realmente tentaram. Da mesma forma, neste momento, professores em todo o país criaram métodos de detecção de uso caseiros, como adicionar solicitações ocultas de padrões de utilização de palavras a tarefas de redação que aparecem apenas quando copiadas e coladas.
Em particular, as empresas de inteligência artificial parecem se opor a quaisquer padrões embutidos em suas respostas que possam melhorar os esforços de detecção de IA para níveis razoáveis, talvez porque temem que a imposição de tais padrões possa interferir no desempenho do modelo ao restringir demais suas respostas —embora não haja evidências atuais de que isso seja um risco. Apesar de promessas públicas anteriores de desenvolver marcações mais avançadas, está cada vez mais claro que a relutância e a procrastinação das empresas se devem ao fato de que isso vai contra o resultado final da indústria de IA ter produtos detectáveis.
Para lidar com essa recusa corporativa em tomar providências, precisamos do equivalente a um ato de ar limpo: um ato de internet limpa. Talvez a solução mais simples seja forçar com leis a marcação avançada intrínseca às saídas geradas, como padrões não facilmente removíveis. Assim como o século 20 exigiu intervenções extensas para proteger o ambiente compartilhado, o século 21 vai demandar intervenções extensas para proteger um recurso comum diferente, mas igualmente crítico, um que não percebemos até agora, pois nunca esteve sob ameaça: nossa cultura humana compartilhada.
Fonte: Folha de São Paulo