OpenAI e Broadcom apresentam Jalapeño, chip para inferência de IA

24/06/2026 · Davi · IA, chips, automação

A notícia mais forte das últimas 24 horas para quem acompanha IA não veio de um novo chatbot, mas da camada que sustenta todos eles: computação. A OpenAI e a Broadcom anunciaram em 24 de junho de 2026 o Jalapeño, primeiro “Intelligence Processor” da OpenAI, um acelerador desenhado especificamente para inferência de grandes modelos de linguagem.

Na prática, inferência é o momento em que o modelo responde ao usuário, executa uma chamada de API ou avança em uma tarefa no Codex. É onde a IA deixa de ser pesquisa e vira produto. Por isso, um chip próprio muda a conversa: a disputa deixa de ser apenas sobre quem tem o melhor modelo e passa a incluir quem controla custo, latência, energia, rede e disponibilidade.

Segundo a OpenAI, o Jalapeño foi projetado do zero para cargas modernas de LLMs, com foco em reduzir movimentação de dados e equilibrar computação, memória e conectividade. Amostras de engenharia já estariam rodando workloads de machine learning em laboratório, incluindo GPT-5.3-Codex-Spark, em frequência e potência alvo de produção. A empresa também afirma que os primeiros testes indicam performance por watt substancialmente melhor que o estado da arte atual, embora o relatório técnico detalhado ainda vá sair nos próximos meses.

Por que isso importa

O ponto central é soberania operacional. OpenAI continua dependente de um ecossistema amplo de data centers, GPUs e parceiros, mas passa a desenhar mais uma parte crítica da pilha. A Broadcom entra com implementação de silício, tecnologias de rede e escala industrial; a Celestica aparece no suporte a placas, racks e integração de sistemas.

Para empresas que usam IA em automação, atendimento, análise de documentos ou agentes internos, esse movimento sinaliza uma tendência clara: o gargalo de 2026 é servir modelos de forma barata e confiável. Se chips dedicados reduzirem custo por resposta, veremos agentes com mais passos, APIs mais previsíveis e produtos de IA menos limitados por fila de compute.

Também há um detalhe simbólico: a OpenAI diz que o ciclo até o tape-out levou nove meses e foi acelerado pelos próprios modelos. Ou seja, IA ajudando a projetar a infraestrutura que vai rodar a próxima geração de IA. É o tipo de loop que pode encurtar ciclos de hardware e pressionar toda a cadeia de semicondutores.

Fontes: OpenAI e Broadcom.