Estudo mostra que IA treinada com dados ruins “fica menos inteligente”
Pesquisadores da Universidade do Texas, nos Estados Unidos, identificaram que modelos de inteligência artificial (IA) treinados com grandes volumes de conteúdo de baixa qualidade, especialmente de redes sociais, têm pior desempenho em raciocínio, precisão e recuperação de informações. O estudo, publicado em 15 de outubro no arXiv, mostrou que quanto mais um modelo é exposto a dados superficiais ou sensacionalistas, mais ele tende a cometer erros e pular etapas no raciocínio lógico. O trabalho analisou modelos abertos como o Llama 3 (Meta) e o Qwen (Alibaba), ambos alimentados com 1 milhão de postagens públicas da plataforma X (antigo Twitter).
Os resultados reforçam uma velha máxima da ciência de dados: “lixo entra, lixo sai”. Segundo o pesquisador Zhangyang Wang, líder do estudo, a qualidade da informação é tão importante quanto a quantidade. Modelos que receberam mais conteúdo irrelevante passaram a demonstrar traços negativos de personalidade, como narcisismo e psicopatia, segundo questionários psicológicos aplicados pela equipe. Mesmo com ajustes posteriores no treinamento, a melhora foi apenas parcial — o que sugere que dados ruins podem causar danos duradouros ao desempenho dos sistemas de IA.
Para especialistas, o estudo serve de alerta sobre os riscos do uso de conteúdo popular, mas raso, na formação de IAs generativas. Stan Karanasios, da Universidade de Queensland, destaca que é essencial investir na curadoria e filtragem de dados para evitar a chamada “deterioração cerebral” das máquinas. A pesquisa ainda não foi revisada por pares, mas aponta caminhos importantes para o futuro da tecnologia — especialmente em um momento em que plataformas como o LinkedIn começam a usar dados de usuários para treinar seus próprios modelos de IA.
Com informações: Nature





