General 365: O Benchmark Que Expôs o Limite do Raciocínio das IAs
As manchetes do último ano pintaram um cenário de domínio absoluto: IAs gabaritando olimpíadas de matemática, passando no exame da OAB, escrevendo código em dezenas de linguagens. Mas um novo benchmark open-source acaba de revelar que, quando o assunto é raciocínio lógico puro — daquele tipo que qualquer humano funcional resolve no café da manhã — os modelos mais avançados do planeta ainda estão longe de passar de ano.
O General 365, desenvolvido pelo time LongCat da Meituan, é um conjunto de 365 questões originais e 1.095 variantes que testam exclusivamente a capacidade de raciocínio geral, limitando o conhecimento de fundo ao nível de ensino fundamental e médio. O resultado? O Gemini 3 Pro, atual líder do ranking, atingiu apenas 62,8% de precisão. A maioria dos 26 modelos testados ficou abaixo dos 60%.
Por que o General 365 é diferente de tudo que veio antes
Benchmarks de IA não são novidade. O MMLU, o BIG-bench, o HumanEval — todos têm seu lugar. Mas o General 365 ataca uma lacuna crítica que estava sendo ignorada: a contaminação por memorização.
Muitos benchmarks atuais permitem que modelos "decorem" padrões. Se você treinar com dados que contêm questões similares, o modelo pode pontuar bem sem jamais raciocinar de verdade. O General 365 foi projetado para neutralizar isso com três armas:
- Conhecimento limitado ao K-12: nada de física quântica ou direito constitucional. Apenas lógica aplicada a situações cotidianas.
- Oito categorias de desafio: restrições complexas, ramificações lógicas aninhadas, interferência semântica, raciocínio contrafactual e mais.
- Validação humana rigorosa: cada questão passou por design manual, verificação de cadeia de raciocínio e validação de resposta, resultando em 99,6% de precisão de pontuação.
Visualizações t-SNE do espaço de embeddings confirmam: as questões do General 365 são uniformemente dispersas, ao contrário de benchmarks como BBH e BBEH, que formam clusters densos — sinal claro de redundância lógica que modelos podem explorar.
O placar que ninguém esperava
Dos 26 modelos testados, nenhum conseguiu se destacar com folga. Os modelos "não-pensantes" (sem cadeia de raciocínio explícita) tiveram desempenho ligeiramente pior, mas até os modelos com reasoning mode ativado patinaram nas categorias de interferência semântica — situações onde a linguagem natural induz o modelo a conclusões erradas por associação de palavras.
"A IA ainda confunde correlação linguística com causalidade lógica. Isso é um problema fundamental, não um bug superficial."
Na prática, isso significa que um modelo pode acertar uma questão de cálculo avançado e, na sequência, errar se deve ir a pé ou de carro até um lava-rápido a 50 metros de distância. O contraste é brutal.
O que isso significa para quem usa IA no dia a dia
Para desenvolvedores, product managers e founders que estão integrando LLMs em produtos reais, o recado do General 365 é claro: não terceirize decisões lógicas críticas para a IA sem supervisão humana.
Um agente que responde tickets de suporte pode soar extremamente articulado e ainda assim recomendar a ação errada porque interpretou mal uma relação de causa e efeito. Um copiloto de código pode sugerir uma refatoração que parece elegante mas introduz um bug lógico sutil. A fluência não é inteligência — e o General 365 acaba de nos dar a régua para medir exatamente essa diferença.
A boa notícia é que benchmarks como esse são ferramentas de diagnóstico, e não sentenças definitivas. A equipe da Meituan comparou o General 365 a um "scanner de tomografia computadorizada" para modelos de mundo: ele mostra exatamente onde estão as fraturas. O próximo passo da indústria é tratar essas fraturas com arquiteturas melhores, dados de treinamento com diversidade lógica real, e sistemas de verificação em cadeia.
O ecossistema está reagindo
O General 365 chega num momento de ebulição no mercado de IA. A Anthropic atingiu valuation de $965 bilhões com sua Série H, o Google avança com a plataforma Gemini Enterprise Agent, e a SpaceX entra pesado na infraestrutura de computação para IA — o famoso projeto Colossus. O investimento nunca foi tão alto. Mas benchmarks como o General 365 nos lembram que ainda estamos no início da jornada do raciocínio artificial.
O código do benchmark está disponível no GitHub, sob licença open-source. Qualquer um pode rodar, verificar e contribuir. Isso é excelente: transparência total é o único antídoto contra o hype.
Conclusão: a próxima fronteira da IA não é mais gerar texto bonito — isso já está resolvido. É raciocinar de verdade. E o General 365 acaba de nos mostrar que, nesse quesito, ainda temos um longo caminho pela frente. O que é animador: significa que as maiores revoluções ainda estão por vir.