Pular para o conteúdo
Inscreva-se
Notícias

Nvidia aposta US$ 1 trilhão na inferência de IA — e isso muda o que você vai pagar por inteligência artificial

F

25 de março de 2026 · 10 min de leitura

Nvidia aposta US$ 1 trilhão na inferência de IA

A Nvidia dobrou sua previsão de receita com chips de IA — de US$ 500 bilhões para US$ 1 trilhão — em apenas quatro meses. Não é otimismo genérico: é a leitura mais agressiva que uma empresa de semicondutores já fez sobre o mercado de inferência de IA. E o que está por trás dessa aposta muda diretamente o que você vai pagar (e o que vai conseguir fazer) com inteligência artificial nos próximos 18 meses.

“O mundo está passando da era de treinar modelos para a era de rodá-los em escala. A inferência já representa dois terços de todo o processamento de IA — e isso está apenas começando.” — Jensen Huang, CEO da Nvidia, GTC 2026

De US$ 500 bilhões para US$ 1 trilhão: o que mudou em 4 meses

Em novembro de 2025, durante a divulgação de resultados trimestrais, a Nvidia projetava US$ 500 bilhões em pedidos de chips de IA até 2027. Em março de 2026, no palco da GTC — a megaconferência anual da empresa — Jensen Huang atualizou o número: US$ 1 trilhão.

A velocidade dessa revisão é incomum. Empresas de semicondutores costumam ajustar projeções em 10-20% entre trimestres. Dobrar a estimativa em quatro meses indica uma de duas coisas: ou a Nvidia estava sendo extremamente conservadora antes, ou a demanda acelerou mais rápido do que qualquer modelo previa.

O catalisador? A mudança estrutural de treinamento para inferência. Treinar um modelo de IA é como escrever um livro — caro, demorado, feito uma vez. Inferência é como distribuir esse livro para milhões de leitores simultaneamente. E o mundo precisa de muito mais distribuição do que escrita.

O que é inferência e por que ela domina agora

Inferência é o processo de rodar um modelo de IA já treinado para gerar respostas em tempo real. Quando você pergunta algo ao ChatGPT, ao Claude ou ao Gemini, o processamento que acontece nos servidores é inferência. E segundo a Deloitte, ela já representa dois terços de todo o processamento de IA — contra apenas um terço em 2023.

Esse crescimento tem consequências diretas:

  • Custo por token importa mais que FLOPS de treinamento. Empresas que usam IA em produção pagam por cada resposta gerada, não pelo treinamento do modelo.
  • Latência vira diferencial competitivo. Um chatbot que demora 3 segundos para responder perde usuários. Inferência rápida retém clientes.
  • Volume escala exponencialmente. Um modelo treinado uma vez pode ser consultado bilhões de vezes por dia.

Groq por US$ 20 bilhões: a Nvidia admitiu que GPUs não bastam

A jogada mais reveladora da Nvidia não foi um novo chip — foi uma aquisição. No final de 2025, a empresa comprou a Groq por US$ 20 bilhões. A Groq fabrica LPUs (Language Processing Units), uma arquitetura fundamentalmente diferente das GPUs da Nvidia.

O que isso significa na prática? A Nvidia — dona de 95%+ do mercado de aceleradores de IA — gastou US$ 20 bilhões para admitir que seu produto principal não é ideal para inferência de baixa latência. As LPUs da Groq não têm a mesma quantidade de memória que GPUs (500 MB vs. 288 GB), mas entregam 150 TB/s de largura de banda de memória contra 22 TB/s das GPUs Rubin. É como trocar um caminhão de carga por uma moto de entrega: menos volume, muito mais velocidade.

O resultado? O Groq 3 LPX, apresentado na GTC 2026, entrega 35x mais throughput por megawatt para modelos com trilhões de parâmetros, comparado à geração anterior (Blackwell NVL72). Em termos práticos: respostas instantâneas para modelos massivos, com uma fração do consumo de energia.

Vera Rubin: 10x mais barato por token

Além da Groq, a Nvidia apresentou a plataforma Vera Rubin — a próxima geração de GPUs para data centers. Os números são diretos:

  • 10x mais throughput de inferência por watt em relação à geração anterior
  • 1/10 do custo por token gerado
  • Arquitetura otimizada para servir modelos em produção, não apenas treiná-los

Para quem usa ferramentas de IA no dia a dia — seja para gerar conteúdo, automatizar atendimento ou analisar dados — isso significa que o que custa R$ 1.000/mês em chamadas de API hoje pode cair para R$ 100 nos próximos 12-18 meses. A infraestrutura está se barateando na velocidade que a demanda exige.

A guerra pela inferência: Nvidia não está sozinha

A dominância da Nvidia no treinamento de IA é quase absoluta. Mas inferência é um jogo diferente — e a competição está esquentando:

  • Google investe pesado em TPUs otimizadas para inferência nos seus data centers
  • Amazon desenvolve chips customizados (Trainium/Inferentia) para reduzir dependência da Nvidia na AWS
  • Cerebras contesta os números da Nvidia — afirma que inferência rápida pode chegar a 60-80% de toda a computação de IA, não os 25% que a Nvidia sugere alocar para LPUs
  • SambaNova oferece chips de inferência para empresas que querem rodar modelos on-premises

Se a Cerebras estiver certa, o mercado de chips específicos para inferência pode ser 3-4x maior do que a própria Nvidia projeta. Isso não é um problema para a Nvidia — é uma oportunidade que ela está tentando capturar com a aquisição da Groq.

O que isso significa para o seu negócio

Nós, da Posicionamento Digital, acompanhamos essa evolução porque ela afeta diretamente o que recomendamos aos nossos clientes. Três implicações práticas:

1. Custos de IA vão despencar. A combinação de Vera Rubin + Groq 3 significa que provedores como OpenAI, Anthropic e Google vão repassar reduções de custo. Ferramentas de IA que hoje parecem caras para PMEs vão se tornar viáveis para operações menores.

2. IA agêntica sai do PowerPoint para a produção. A Nvidia dedicou tempo significativo na GTC a agentes de IA autônomos (produto NemoClaw). Isso significa: IA que não apenas responde perguntas, mas executa tarefas — agendamento, atendimento, processamento de dados. Para PMEs, a automação inteligente está chegando ao mercado entre 2026 e 2027.

3. Velocidade de resposta vira critério de escolha. A aquisição da Groq foi motivada pelo fato de que atrasos de segundos em chatbots causam abandono. Se você está implantando IA no atendimento ao cliente, a latência da resposta será um diferencial competitivo — e a infraestrutura está evoluindo para resolver isso.

O novo indicador: tokens por watt

Segundo a Constellation Research, o mercado de IA está migrando de FLOPS (operações de ponto flutuante por segundo) para tokens por watt como métrica principal. Isso reflete a mudança de prioridade: não importa o quão rápido você treina um modelo se rodá-lo em produção custa uma fortuna em energia.

A Bain & Company resume bem: “IA está se tornando a camada operacional — não se trata de treinar seu próprio modelo, mas do que agora é economicamente viável fazer com IA.”

Para empresas de qualquer porte, essa é a mensagem central: o gargalo não é mais a inteligência dos modelos. É o custo e a velocidade de colocá-los para trabalhar. E esse gargalo está sendo eliminado.

Próximos passos: o que observar

Se você está avaliando ou já usando IA no seu negócio, três coisas para acompanhar nos próximos meses:

  1. Reduções de preço dos provedores de API. Quando Vera Rubin entrar em produção, espere anúncios de corte de preço da OpenAI, Anthropic e Google. Planeje seu orçamento de IA com essa queda em mente.
  2. Ferramentas de IA agêntica. Agentes que executam tarefas completas (não apenas respondem) estão chegando ao mercado. Avalie onde na sua operação um agente autônomo eliminaria trabalho manual repetitivo.
  3. Latência como métrica. Se você usa chatbot ou atendimento com IA, meça o tempo de resposta. Ferramentas que usam infraestrutura de inferência otimizada vão entregar respostas sub-segundo — e seus clientes vão notar a diferença.

Perguntas frequentes

O que é inferência de IA e qual a diferença para treinamento?

Treinamento é o processo de ensinar um modelo com grandes volumes de dados — feito uma vez, com custo alto. Inferência é usar esse modelo treinado para gerar respostas em tempo real, como quando você faz uma pergunta ao ChatGPT. A inferência é repetida bilhões de vezes por dia e agora representa dois terços de todo o processamento de IA.

Como a queda no custo de inferência afeta pequenas empresas?

Diretamente. Ferramentas de IA cobram por uso (tokens processados). Com chips 10x mais eficientes, os provedores podem reduzir preços. Automatizações que hoje custam R$ 1.000/mês em APIs podem cair para R$ 100, tornando viável para PMEs usar IA em atendimento, conteúdo e análise de dados.

A Nvidia vai continuar dominando o mercado de IA?

No treinamento, sim — com 95%+ de market share. Na inferência, a competição está mais acirrada. Google, Amazon, Cerebras e SambaNova estão desenvolvendo chips específicos. A aquisição da Groq por US$ 20 bilhões mostra que a Nvidia está se posicionando, mas o mercado de inferência ainda está em disputa.

O que são LPUs e por que a Nvidia comprou a Groq?

LPUs (Language Processing Units) são chips projetados especificamente para processar linguagem em alta velocidade. Diferente das GPUs (que servem para tudo), as LPUs sacrificam memória em troca de velocidade extrema: 150 TB/s de largura de banda contra 22 TB/s das GPUs. A Nvidia comprou a Groq porque reconheceu que GPUs sozinhas não são ideais para inferência de baixa latência.

Quando essas mudanças vão impactar o mercado brasileiro?

Os efeitos começam a chegar em 6-12 meses via redução de preços dos provedores de API (OpenAI, Anthropic, Google). Ferramentas SaaS que usam IA também repassarão parte da economia. Para hardware on-premises, o ciclo é mais longo — 18-24 meses.


Leia também

Artigos Relacionados