O Despertar dos 'Especialistas Ocultos': Como o MIT Está Mudando o Treinamento de IA

O Momento em Que Minha Cabeça Girou

Eu achava que entendia como o treinamento de IA funcionava. Pré-treinamento para construir a base, pós-treinamento para especializar. Simples, linear, caro.

Até eu ler o paper “Neural Thickets” do MIT, publicado em 12 de março de 2026. E de repente, o modelo mental que eu tinha sobre como IAs aprendem ficou de cabeça para baixo.

A ideia central é tão contraintuitiva que eu precisei ler três vezes para acreditar: o especialista que você procura já está dentro do modelo pré-treinado. Ele não precisa ser “ensinado” — ele precisa ser encontrado. E encontrá-lo pode ser tão simples quanto adicionar ruído aleatório aos parâmetros e ver o que acontece.

Sim, você leu certo. Ruído aleatório. Sem gradiente. Sem treinamento iterativo. Sem infraestrutura massiva.

Deixa eu explicar.

O Roteiro Tradicional (E Por Que Ele É Um Problema)

Até hoje, a jornada de um modelo de IA como o ChatGPT seguia um roteiro fixo. Primeiro vem o pré-treinamento: o modelo ingere quantidades colossais de texto (e cada vez mais, imagens e áudio) e aprende os padrões estatísticos do mundo. Esse é o passo mais caro — estamos falando de semanas de treinamento em clusters de GPUs que custam milhões de dólares.

Depois vem o pós-treinamento: Fine-Tuning, RLHF (Reinforcement Learning from Human Feedback), PPO, GRPO… uma sopa de siglas que basicamente serve para transformar uma IA generalista em algo útil e alinhado. É esse segundo passo que transforma um modelo genérico em um “médico”, “advogado” ou “programador”.

O problema? O pós-treinamento é caro, lento e complexo. Cada especialização exige dados curados, humanos anotadores, infraestrutura de treinamento, e ciclos de iteração que podem levar semanas. Para empresas menores, é proibitivo. Para pesquisadores acadêmicos, é quase inacessível.

E se não precisássemos dele?

Neural Thickets: Os Especialistas Escondidos

O paper é de Yulu Gan (doutorando do CSAIL/MIT, formado pela Universidade de Pequim) e Phillip Isola (professor do MIT, um dos nomes mais respeitados em visão computacional). Foi publicado no arXiv e já tem código aberto no GitHub.

A descoberta deles me lembra uma metáfora que não consigo tirar da cabeça: modelos pré-treinados em grande escala são como formandos de uma universidade de elite. Eles têm um potencial enorme e um conhecimento vasto, mas ainda não manifestaram uma especialização. O conhecimento de um químico, de um matemático, de um programador — já está “assado” dentro do modelo. Ele está apenas escondido sob camadas de parâmetros generalistas.

Os pesquisadores chamaram essa concentração de habilidades latentes de “Neural Thicket” — literalmente, um “emaranhado neural”. E aqui está a sacada principal:

Em modelos pequenos, esses especialistas ocultos são como agulhas em um palheiro. Estão lá, mas ocupam uma fração tão minúscula do espaço de parâmetros que você precisa de métodos sofisticados (como gradient descent) para encontrá-los.

Mas em modelos grandes e bem pré-treinados? O palheiro inteiro vira agulha. Os especialistas são tão densos ao redor dos pesos pré-treinados que você tropeça neles por acidente. Literalmente.

RandOpt: Girando o Dial do Rádio

Para explorar essa descoberta, o MIT desenvolveu um algoritmo chamado RandOpt (Random Optimization). E a beleza dele está na simplicidade quase absurda.

Em vez de usar gradient descent — o motor padrão de todo treinamento de IA —, o RandOpt funciona em dois passos:

Passo 1: Nudges aleatórios. Adicione ruído gaussiano aos pesos do modelo pré-treinado. Faça isso N vezes. É uma operação de um único passo — sem iteração, sem learning rate, sem gradiente. É como girar o sintonizador de um rádio antigo milhares de vezes até encontrar frequências interessantes.

Passo 2: Votação por performance. Teste cada uma das N versões perturbadas em uma tarefa específica com um pequeno conjunto de validação. Selecione as K melhores. Na hora de fazer inferência, essas K versões “votam” juntas (majority vote) para chegar à resposta final.

É isso. Sem backpropagation. Sem ciclos de treinamento. Os “workers” do RandOpt operam em paralelo total, sem se comunicar entre si durante o processo. Só interagem no momento da votação.

Os Resultados (Que Me Surpreenderam)

Eu confesso que quando li “ruído aleatório compete com PPO e GRPO”, minha reação foi ceticismo. Esses são métodos de elite — os mesmos usados para alinhar GPT-4 e Gemini.

Mas os benchmarks não mentem.

Com K=50 ensembles, o RandOpt igualou ou superou métodos sequenciais de RL e ES (Evolutionary Strategies) em tarefas de raciocínio matemático (GSM8K, MATH-500, OlympiadBench), geração de código (MBPP), escrita criativa (ROCStories) e química (USPTO), com o mesmo orçamento de FLOPs.

Para modelos de visão e linguagem (testado no Qwen2.5-VL-3B), o RandOpt melhorou a precisão no benchmark GQA de 56,6% para 69,0% — um salto de 12,4 pontos percentuais.

E o efeito escala é o mais fascinante: quanto maior o modelo, melhor o RandOpt funciona. Porque quanto maior o modelo, mais denso é o “thicket” de especialistas ao redor dos pesos pré-treinados. Em modelos suficientemente grandes, a maioria das perturbações aleatórias melhora a performance em tarefas específicas.

Por Que Isso É Revolucionário (Na Minha Opinião)

Eu sou cauteloso com a palavra “revolucionário” — ela é usada demais em IA. Mas aqui eu acho que cabe, por três motivos:

Democratização. Se você não precisa de infraestrutura de treinamento massiva para especializar um modelo, o custo de criar IAs especializadas cai drasticamente. Startups, pesquisadores acadêmicos, empresas menores — todos ganham acesso a algo que hoje é privilégio de quem tem milhões para gastar em compute.

Paralelismo perfeito. Os workers do RandOpt são 100% independentes. Não há comunicação durante o treinamento, não há dependências sequenciais. Isso significa que o algoritmo escala trivialmente com hardware — jogue mais GPUs no problema e ele resolve mais rápido, sem overhead de coordenação.

Reframe conceitual. Talvez a contribuição mais profunda não seja o algoritmo, mas a mudança de perspectiva. Em vez de pensar no pré-treinamento como um “ponto de partida” para otimização, pense nele como uma distribuição sobre vetores de parâmetros cujo suporte já contém especialistas. Essa mudança de framing abre portas para toda uma nova linha de pesquisa.

Um Alerta Honesto

Eu não seria eu mesmo se não colocasse as ressalvas.

O paper admite que os ganhos do RandOpt parecem saturar com o aumento do tamanho do modelo e do número de perturbações. Há um teto. Ele não aprende habilidades dramaticamente novas que não estejam pelo menos latentes no pré-treinamento — ele desbloqueia o que já existe.

E os benchmarks, por mais impressionantes que sejam, ainda são… benchmarks. A performance em GSM8K não é a mesma coisa que performance em um caso de uso real de produção. O código está disponível no GitHub, então qualquer um pode testar na prática — e eu pretendo fazer isso.

Além disso, modelos de imagem por difusão também mostraram o fenômeno de Neural Thickets — certas regiões do espaço de parâmetros tendiam a gerar imagens com tons de cor ou estilos visuais específicos. Isso sugere que o fenômeno é mais geral do que apenas linguagem, o que é animador.

Conclusão: A IA Já Sabe, Nós Só Precisamos Perguntar do Jeito Certo

Essa pesquisa me fez repensar algo fundamental: talvez estejamos subestimando o poder do pré-treinamento.

Se o conhecimento já está lá, o desafio da próxima década não será apenas “ensinar” a IA, mas encontrar as chaves certas para libertar o potencial que ela já possui. E se essas chaves forem tão simples quanto ruído gaussiano e votação por maioria… isso muda tudo.

Eu fico imaginando: será que o futuro da IA será focado em modelos menores e mais especializados extraídos de um único modelo gigante? Ou continuaremos na corrida pelos gigantes? Ou talvez — e essa é a possibilidade que mais me anima — os dois caminhos convergem, e a dicotomia “modelo grande vs. modelo pequeno” simplesmente deixa de existir.

Por enquanto, vou clonar o repositório do RandOpt e brincar com ele. Se a premissa está certa, isso pode mudar fundamentalmente como eu penso sobre deployar modelos especializados.

E se o especialista que você procura já estiver dentro do modelo… você só precisa cutucar no lugar certo.

Compartilhe se isso te intrigou:

Email: fodra@fodra.com.br
LinkedIn: linkedin.com/in/mauriciofodra

O melhor pré-treinamento não é aquele que cria um generalista — é aquele que esconde mil especialistas esperando para serem encontrados.