Além do Texto: Por Que os Modelos de Linguagem Nunca Serão 'Verdadeiramente Inteligentes'

A Frase que Me Incomodou

“O caminho para a superinteligência — simplesmente escalar LLMs, treinar com mais dados sintéticos, contratar milhares de pessoas para ajustar seu sistema em pós-treinamento — acho que é besteira completa. Nunca vai funcionar.”

Quando eu li essa frase de Yann LeCun pela primeira vez, minha reação foi defensiva. Eu uso LLMs todos os dias. Escrevo sobre eles. Construo fluxos de trabalho inteiros ao redor deles. Dizer que eles são um “beco sem saída” parecia quase uma afronta pessoal.

Mas Yann LeCun não é qualquer pessoa. É vencedor do Prêmio Turing de 2018 — o equivalente ao Nobel da computação. Foi chefe de IA da Meta por 12 anos. É um dos três “padrinhos da IA” moderna. E em novembro de 2025, ele saiu da Meta para fundar a AMI Labs (Advanced Machine Intelligence Labs) e apostar sua reputação inteira em uma visão radicalmente diferente do futuro da IA.

Em março de 2026, a AMI Labs levantou $1,03 bilhão em uma avaliação de $3,5 bilhões — o maior seed round da história da Europa. Sem produto. Sem receita. Apenas uma tese.

Depois de semanas pesquisando o argumento dele, eu mudei de opinião. Não completamente — mas o suficiente para me preocupar com o que estou construindo.

O Argumento de LeCun (Sem Simplificações)

A tese de LeCun não é que LLMs são inúteis — ele mesmo diz que são úteis. A tese é que eles nunca vão alcançar inteligência de nível humano, porque são estruturalmente incapazes de entender o mundo real. São, nas palavras dele, “uma saída de emergência, uma distração, um beco sem saída” no caminho para a inteligência de máquina.

Por quê?

O problema do texto. LLMs são treinados em texto. Mas a maior parte do conhecimento humano não é linguagem. Um bebê de dois anos entende gravidade, permanência de objetos, relações de causa e efeito — tudo sem ler uma única palavra. Uma criança de quatro anos já processou 50 vezes mais dados sensoriais do que o maior LLM do mundo.

Como LeCun disse ao MIT Technology Review: LLMs estão limitados ao mundo discreto do texto. Eles não conseguem genuinamente raciocinar ou planejar, porque não têm um modelo do mundo. Não conseguem prever as consequências de suas ações.

O Paradoxo de Moravec. O que é fácil para nós — percepção, navegação, manipulação física — é difícil para computadores, e vice-versa. LLMs são incríveis em fluência linguística, mas essa fluência nos engana. Ela nos faz pensar que há compreensão real por trás, quando o que existe é reconhecimento sofisticado de padrões.

Isso explica por que, mesmo com bilhões investidos, ainda não temos um robô doméstico tão ágil quanto um gato, nem carros verdadeiramente autônomos (nível 5). A IA fala bem, mas não entende o mundo.

O Problema do “Aprendizado Terceirizado”

Essa é a parte que mais me fez pensar. Para construir um LLM hoje, você precisa de um exército de humanos: cientistas de dados, engenheiros, curadores, especialistas em políticas, anotadores — todos trabalhando para alimentar a IA com as informações certas.

Compare isso com como um bebê aprende. Ele aprende assistindo, tocando, quebrando coisas e caindo. Processa o que aprendeu enquanto dorme. O aprendizado é uma capacidade intrínseca, não algo imposto de fora por uma equipe de engenharia.

Pesquisadores identificaram três habilidades que animais possuem mas sistemas de IA atuais não:

Aprendizado ativo — a capacidade de escolher os próprios dados para aprender. Um bebê direciona sua atenção. Um LLM recebe o que lhe dão.

Meta-controle — alternar entre diferentes modos de aprendizado dependendo da situação. Observar quando é hora de observar, agir quando é hora de agir.

Meta-cognição — sentir a própria performance. Saber quando está errando sem precisar de feedback humano. Uma autoconsciência funcional que LLMs simplesmente não possuem.

World Models: A Aposta de $1 Bilhão

A alternativa que LeCun propõe se chama world models — modelos do mundo. Em vez de treinar IA em texto, treine-a em dados sensoriais (principalmente vídeo) para que ela entenda como o mundo físico funciona.

A ideia, construída sobre sua pesquisa I-JEPA na Meta, é que a IA aprenda representações abstratas da realidade — não gerando pixels, mas prevendo em um espaço de representação abstrata. Assim como uma criança desenvolve uma física intuitiva ao observar objetos caindo, sem ninguém explicar as leis de Newton.

A arquitetura proposta tem três sistemas trabalhando juntos. Um sistema de observação (aprende assistindo o mundo), um sistema de ação (aprende fazendo e interagindo), e um sistema de meta-controle (o “mestre” que decide quando observar, quando agir e quando refletir — tudo de forma automática).

E LeCun não está sozinho. Fei-Fei Li (ex-diretora do Stanford HAI) levantou $1 bilhão para a World Labs com seu produto Marble (geração de ambientes 3D). O Google DeepMind lançou o Genie 3, o primeiro world model interativo em tempo real. A NVIDIA viu 2 milhões de downloads da plataforma Cosmos. E a Runway posiciona seu Gen-4.5 como “world model que entende física”.

Minha Opinião Honesta (Com Ressalvas)

Depois de pesquisar tudo isso, aqui está onde eu aterrissei:

LeCun provavelmente está certo no longo prazo. A arquitetura de LLMs, por si só, não vai produzir inteligência geral. A fluência linguística não é compreensão, e adicionar mais dados de texto não resolve o problema fundamental de que a IA não tem um modelo do mundo físico.

Mas o “longo prazo” é muito longo. O próprio LeCun admite que vai levar “vários anos a uma década”. Ilya Sutskever (ex-OpenAI) fala em “5 a 20 anos”. Enquanto isso, LLMs continuam sendo a base de aplicações que servem centenas de milhões de pessoas. GPT, Claude, Gemini vão continuar iterando e melhorando.

O futuro mais provável é híbrido. A maioria dos pesquisadores sérios não pensa em “substituição”, mas em integração. Um sistema que usa LLM para compreensão de linguagem e raciocínio abstrato, enquanto o world model cuida do planejamento físico e simulação de consequências. Não é “ou/ou” — é “e/e”.

O que me preocupa é a saturação que LeCun aponta. O Llama 4 da Meta, lançado em abril de 2025, performou em cenários reais muito abaixo dos benchmarks — evidência de que otimizar métricas de avaliação não é o mesmo que melhorar compreensão. Se estamos chegando ao teto dos LLMs, a corrida por world models se torna urgente, não acadêmica.

E o Que Isso Significa Para Nós?

Se você, como eu, trabalha com IA no dia a dia, a implicação prática não é “pare de usar LLMs”. Eles continuam sendo ferramentas incríveis de produtividade. Mas vale ter consciência de que:

O que temos hoje são ferramentas poderosas de predição de texto — não de compreensão do mundo. A “inteligência” que vemos é fluência, não entendimento. E o próximo salto real em IA provavelmente não virá de um GPT-6 ou Claude 5, mas de uma arquitetura fundamentalmente diferente.

O futuro da IA não está em ler mais livros. Está em viver no mundo.

E, sinceramente, isso me anima. Porque se a próxima fronteira exige compreensão do mundo físico, da causalidade e da experiência — tudo aquilo que é irredutivelmente humano —, então talvez a IA que substituiria humanos esteja mais longe do que pensávamos. E a IA que amplia humanos esteja mais perto do que nunca.

Compartilhe se isso expandiu sua perspectiva:

Email: fodra@fodra.com.br
LinkedIn: linkedin.com/in/mauriciofodra

A IA que fala bem já existe. A IA que entende o mundo ainda está sendo inventada. E essa diferença é tudo.