A NVIDIA apresentou a plataforma Blackwell Ultra como próxima evolução de sua arquitetura para fábricas de IA, com foco em treino, pós-treino e inferência de modelos de raciocínio.1 O anúncio inclui a solução rack-scale GB300 NVL72, o sistema HGX B300 NVL16 e o framework aberto NVIDIA Dynamo para servir inferência em escala.
A mensagem da empresa é que a fase de raciocínio e agentes aumenta a demanda por compute durante a inferência. Modelos que exploram múltiplos caminhos, planejam etapas ou usam test-time scaling consomem mais recursos que chatbots simples. Isso desloca a pressão de infraestrutura: não basta treinar modelos grandes, é preciso servi-los com latência, throughput e custo previsíveis.
Blackwell Ultra mira inferência de raciocínio
Segundo a NVIDIA, o GB300 NVL72 conecta 72 GPUs Blackwell Ultra e 36 CPUs Grace em um desenho de rack pensado como uma grande GPU para test-time scaling.1 A empresa afirma que a solução entrega 1,5 vez mais performance de IA que o GB200 NVL72. O HGX B300 NVL16, por sua vez, é apresentado com inferência 11 vezes mais rápida em grandes modelos de linguagem, sete vezes mais compute e quatro vezes mais memória que a geração Hopper.
Esses números devem ser lidos como posicionamento de plataforma. O cliente final não compra apenas chip, mas um conjunto de GPU, CPU, memória, rede, software, suporte e integração com clouds ou data centers. Em IA generativa, gargalos aparecem em interconexão, movimentação de dados, memória, scheduling, armazenamento de KV-cache e eficiência de serving.
Por isso, a NVIDIA também destaca Spectrum-X Ethernet, Quantum-X800 InfiniBand e ConnectX-8 com 800 Gb/s por GPU no sistema.1 A rede deixa de ser detalhe de data center e vira parte do desempenho do modelo, especialmente quando milhares de GPUs precisam cooperar para uma experiência de usuário aceitável.
Dynamo tenta reduzir o custo de servir modelos
O NVIDIA Dynamo é apresentado como framework aberto de inferência para escalar serviços de IA de raciocínio, aumentando throughput, reduzindo tempo de resposta e baixando custo total de propriedade.1 A proposta inclui orquestrar comunicação entre milhares de GPUs e separar fases de processamento e geração de grandes modelos em GPUs diferentes.
Essa separação é importante porque prompts longos, geração de tokens e múltiplas tentativas não consomem recursos da mesma forma. Se a plataforma consegue otimizar cada fase, a fábrica de IA melhora utilização e reduz desperdício. Em escala, pequenas diferenças de eficiência se tornam custo material.
O anúncio também informa que parceiros como Cisco, Dell Technologies, HPE, Lenovo e Supermicro devem entregar servidores baseados em Blackwell Ultra, enquanto AWS, Google Cloud, Microsoft Azure, Oracle Cloud Infrastructure e provedores de GPU cloud aparecem entre os primeiros a oferecer instâncias.1
Blackwell Ultra e Dynamo mostram como a disputa de IA se desloca para infraestrutura operacional. Modelos de raciocínio prometem respostas melhores, mas cobram mais da pilha inteira. A empresa que pretende usar agentes em produção precisa olhar para custo por tarefa concluída, não só para custo por token ou para a capacidade nominal de uma GPU.
- NVIDIA, "NVIDIA Blackwell Ultra AI Factory Platform Paves Way for Age of AI Reasoning", 18 mar. 2025. ↩