O paradoxo da IA: Estudo da Microsoft revela que chatbots ficam “mais burros” em conversas longas

Se você já usou ferramentas de Inteligência Artificial para programar um software do zero ou planejar um projeto gigantesco, provavelmente já notou um padrão irritante: nas primeiras mensagens, a máquina parece um gênio insuperável. Mas, após dezenas de interações e ajustes, ela começa a esquecer regras básicas, entra em loops e entrega resultados bizarros.

Agora, a ciência confirmou o que a nossa intuição já dizia. Um novo e massivo estudo conduzido em conjunto pela Microsoft Research e pela Universidade de Cornell revelou que os Grandes Modelos de Linguagem (LLMs) sofrem uma degradação severa de performance durante interações prolongadas com humanos.

A queda vertiginosa nos números

Para chegar a essa conclusão, os pesquisadores realizaram simulações envolvendo mais de 200 mil diálogos, testando a elite atual da Inteligência Artificial: modelos como GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 e Llama 4. O resultado foi um banho de água fria na indústria.

Em tarefas de prompt único (quando você faz uma pergunta direta e exige apenas uma resposta), os pesos-pesados como GPT-4.1 e Gemini 2.5 Pro brilham, alcançando uma taxa de sucesso na casa dos 90%. No entanto, quando a tarefa exige que o usuário e a máquina conversem em múltiplos estágios para resolver um problema complexo passo a passo, a precisão desses mesmos modelos despenca para cerca de 65%.

Em média, os pesquisadores notaram uma queda de 39% na produtividade em seis categorias diferentes de geração de tarefas de longo prazo.

O efeito “bola de neve” dos erros

O estudo apontou que as IAs sofrem de um mal que também afeta muitos humanos: a pressa em chegar a uma conclusão.

Em diálogos longos, os modelos tendem a fazer presunções fortes logo nas primeiras etapas da conversa. Quando o contexto muda ou o usuário pede uma alteração lá no décimo prompt, a IA tenta encaixar a nova instrução dentro daquela premissa inicial errada, em vez de recalcular a rota do zero. O resultado é um efeito “bola de neve”, onde os erros das respostas anteriores vão contaminando as respostas futuras.

Para tentar compensar a confusão, os modelos também adotam um comportamento conhecido como “inchaço”: eles começam a gerar textos absurdamente longos e detalhados na esperança de acertar algo por tentativa e erro, perdendo completamente o foco do que foi pedido.

A ironia dos modelos mais simples

O detalhe mais curioso e irônico do estudo é que modelos de Inteligência Artificial menores acabaram apresentando uma estabilidade maior em conversas longas. Como não têm capacidade de criar raciocínios preditivos complexos no início da conversa, essas IAs mais básicas não se prendem a suposições iniciais, respondendo de forma mais literal (e menos errada) no final do diálogo.

A conclusão da Microsoft é um aviso claro para a indústria: antes de tentar alcançar a Inteligência Artificial Geral (AGI), os desenvolvedores precisam resolver urgentemente a “memória de curto prazo” das suas ferramentas.

Fonte: Hardware.com.br

O paradoxo da IA: Estudo da Microsoft revela que chatbots ficam “mais burros” em conversas longas

Leia também