A Vez Que Eu Culpei o Modelo (E Estava Errado)

Há alguns meses, eu estava frustrando com um agente que eu montei para automatizar análises. Ele rodava no Claude Opus — literalmente o modelo mais avançado disponível. E mesmo assim, falhava em tarefas que eu esperava serem triviais.

Minha reação instintiva foi: “preciso de um modelo melhor”. Ou talvez “preciso do GPT-5”. Ou “talvez o Gemini resolva isso”. E então eu caí exatamente na armadilha que a maioria dos desenvolvedores cai: achar que o problema está no motor, quando o problema está no chassi.

Um paper publicado em março de 2026 por pesquisadores de Stanford e MIT (arXiv:2603.28052) provou de forma definitiva o que eu deveria ter percebido: mudar o harness ao redor de um modelo fixo pode causar variações de até 6 vezes na performance do mesmo benchmark. Sem tocar em um único peso do modelo. Sem upgrade. Sem modelo novo. Apenas mudando o código que orquestra o modelo.

E o Meta-Harness que eles criaram ficou em #1 no TerminalBench-2 entre todos os agentes Claude Haiku 4.5 — batendo cada solução manualmente engenheirada por equipes humanas.

Eu deveria ter mudado meu harness, não meu modelo.

O Que É, Afinal, o “Harness”?

Pense no modelo de linguagem como um motor potente de Fórmula 1. O harness — a “camada de orquestração” — é todo o resto do carro: aerodinâmica, transmissão, suspensão, estratégia de pit stop, e o piloto.

O harness é o código que decide: quando chamar uma ferramenta de busca? O que manter na memória e o que descartar? Como o RAG deve se comportar? Qual prompt de sistema enviar? Como tratar erros? Quando re-tentar? Como formatar o output? Quando escalar para revisão humana?

Até agora, essa camada era escrita e ajustada manualmente por engenheiros. Semanas de tentativa e erro. E aqui está o insight que mudou como eu penso sobre isso: se o harness for ruim, até o melhor modelo do mundo vai falhar em tarefas simples. Um motor de F1 em um chassi de Fusca não ganha corrida.

E o inverso também é verdade — e mais surpreendente. Um modelo menor (como o Haiku 4.5) com um harness excelente pode superar modelos maiores com harnesses mediocres. Foi exatamente isso que Stanford demonstrou.

O Meta-Harness de Stanford: IA Otimizando IA

A grande inovação do paper é o Meta-Harness — um sistema que automatiza a engenharia do harness. Em vez de um humano gastar semanas ajustando código de orquestração, o Meta-Harness funciona como um “engenheiro sênior automatizado”.

Como funciona: um agente propositor (baseado em Claude) recebe acesso total ao sistema de arquivos — código-fonte, pontuações e traces de execução completos de todas as tentativas anteriores. Ele analisa por que cada tentativa falhou, identifica relações causais, e reescreve o harness para a próxima iteração.

É essencialmente debugging automatizado em nível de sistema. Não apenas “otimizar prompt” — é reescrever a lógica de orquestração inteira baseada em evidência empírica.

Os logs internos revelaram um processo que espelha exatamente como um engenheiro humano sênior trabalha. Nas iterações 1-2, faz mudanças simultâneas e a performance despenca. Na iteração 3, age como dev sênior: revisa as duas tentativas falhadas, identifica variável confundidora, isola a correção estrutural e testa sozinha. Nas iterações 4-6, experimenta e aprende que modificar lógica central é alto risco. Na iteração 7 — o breakthrough — pivota completamente a estratégia.

Os Números Que Me Convenceram

Os resultados em três domínios diferentes:

Classificação de texto online. O Meta-Harness superou o melhor sistema manual (ACE) por 7,7 pontos — usando 4 vezes menos tokens de contexto. Atingiu a precisão final do melhor otimizador após apenas 4 avaliações. Eficiência absurda.

Raciocínio matemático (nível IMO). Um único harness descoberto melhorou a precisão em 200 problemas de nível de Olimpíada Internacional de Matemática por 4,7 pontos na média — e transferiu para 5 modelos diferentes não vistos durante a otimização. Um harness otimizado uma vez, aplicável em muitos modelos.

Codificação agêntica (TerminalBench-2). O harness descoberto alcançou 76,4% pass rate com Claude Opus 4.6, superando o Terminus-KIRA otimizado manualmente (74,7%). Com o menor Haiku 4.5, ficou em #1 entre todos os agentes publicados (37,6%). Outro framework, o AutoAgent, usando abordagem similar, chegou a #1 no SpreadsheetBench com 96,5%.

A ablação detalhada confirmou que o ingrediente crítico é o acesso a traces de execução brutos — não resumos gerados por LLM, não apenas pontuações. Dar à IA acesso aos logs crus efetivamente dobrou a precisão mediana comparada com variantes que comprimiam esse feedback.

A Pesquisa de Tsinghua que Completa o Quadro

No mesmo mês, uma equipe da Tsinghua publicou um paper complementar propondo uma estrutura de harness baseada em linguagem natural em vez de scripts Python rígidos. Dividiram o harness em três camadas que podem ser trocadas independentemente para testar a eficácia de cada componente.

O achado? Harnesses em linguagem natural superam scripts Python brittle. E isso faz sentido intuitivo: se o modelo já é otimizado para entender linguagem natural, por que orquestrá-lo com código rígido?

Juntos, Stanford e Tsinghua pintam um quadro claro: a camada de orquestração é o novo campo de batalha. Não se trata mais de quem tem o maior modelo, mas de quem tem o harness mais inteligente.

O Que Isso Significa Para Você (E Para Mim)

Desde que li esse paper, mudei três coisas na minha prática:

Parei de trocar de modelo como primeiro instinto. Quando um agente falha, minha primeira pergunta agora é: “o que no harness está causando isso?”. Verifico se o RAG está recuperando contexto relevante, se o prompt de sistema é adequado, se os guardrails estão configurados corretamente, se a lógica de re-tentativa faz sentido.

Comecei a tratar harness como código de produção. Antes, o harness era “glue code” — código de cola, meio jogado, sem testes. Agora trato com a mesma seriedade que trataria código de backend: versionado, testado, documentado.

Invisto em observabilidade do agente. Se o Meta-Harness funciona porque tem acesso a traces de execução completos, eu também preciso desses traces. Logs detalhados de cada chamada, cada decisão, cada fallback. Sem observabilidade, otimização é cega.

Três benefícios práticos de investir no harness:

Eficiência de custos. Um harness otimizado consome menos tokens (o paper mostrou 4x menos) e entrega resultados mais rápidos. Num mundo onde tokens custam dinheiro, isso é ROI direto.

Menos erros. A otimização automatizada detecta falhas de lógica que um humano levaria dias para perceber. O propositor de Stanford isolou variáveis confundidoras na iteração 3 — algo que eu provavelmente não faria tão rápido.

Transferibilidade. Um harness bom, otimizado uma vez, pode elevar múltiplos modelos. Isso inverte a dependência: em vez de ficar preso a um provider, você investe na orquestração e troca o modelo por baixo conforme necessário.

Conclusão: O Fim do Ajuste Manual

O Meta-Harness marca o início de uma era onde a IA não apenas executa tarefas, mas projeta a melhor forma de executá-las. A pergunta não é mais “qual modelo eu uso?” — é “quem está otimizando meu harness?”.

Se a resposta for “eu, manualmente, em semanas de tentativa e erro” — você está competindo com braços amarrados contra equipes que automatizaram esse processo. Não porque você é incompetente. Porque a busca automatizada sobre espaços de harness é fundamentalmente mais eficiente que intuição humana para esse tipo de problema.

A era do ajuste fino manual está chegando ao fim. A era da engenharia de harness automatizada está começando. E isso, paradoxalmente, torna o papel do engenheiro humano mais importante — não menos. Porque alguém precisa definir os objetivos, interpretar os resultados, e decidir quando o agente está pronto para produção.

O motor importa. Mas o chassi ganha a corrida.

Compartilhe se isso mudou sua perspectiva:

O melhor modelo do mundo não salva um harness ruim. Mas um harness excelente transforma até um modelo menor em campeão.


Leia Também