IA Com Memória de Peixe? Como Dominar a Janela de Contexto e Reduzir Custos em Até 90%
Chroma testou 18 modelos de fronteira: TODOS degradam com contexto longo. O contexto efetivo pode cair até 99% do anunciado. Mas prompt caching economiza 41-80%. Este é o guia que eu queria ter lido antes de queimar $2.000 em tokens.