O Google lançou o Gemma 3 como nova geração de seus open models, construída a partir de pesquisa e tecnologia ligadas ao Gemini 2.0.1 A família chega em tamanhos de 1B, 4B, 12B e 27B parâmetros, com foco em portabilidade, execução em dispositivos e uso por desenvolvedores que precisam adaptar modelos ao próprio ambiente.
O anúncio destaca suporte a mais de 140 idiomas, janela de contexto de 128K tokens, function calling, saída estruturada e versões quantizadas para reduzir custo computacional.1 Os modelos de 4B, 12B e 27B também adicionam capacidades visuais, permitindo aplicações que combinam imagem e texto.
Open model entra na disputa multimodal
Gemma 3 amplia a proposta original da família Gemma. O relatório técnico descreve a versão como multimodal, com modelos de 1 a 27 bilhões de parâmetros, contexto de pelo menos 128K tokens e mudanças arquiteturais para reduzir o crescimento de memória do KV-cache em contexto longo.2 A estratégia usa mais camadas locais entre camadas globais de atenção, mantendo alcance longo onde ele é mais necessário.
Essa escolha é relevante para deployment. Contexto longo pode ser caro em memória e latência, especialmente fora de grandes clusters. Um modelo aberto que tenta equilibrar janela ampla, execução local e versões quantizadas mira casos como assistentes embarcados, análise documental, ferramentas offline, aplicações em edge e produtos que não querem enviar todo dado sensível para uma API externa.
O Google também afirma que Gemma 3 é adequado para single-GPU ou TPU em várias configurações.1 Esse posicionamento conversa com equipes que buscam controlar custo e infraestrutura. Um modelo menor, ajustado para o domínio certo, pode entregar valor suficiente sem depender sempre de uma fronteira fechada.
Abertura exige governança técnica
Open model não significa ausência de responsabilidade. O Google informa que a família passou por data governance, alinhamento por fine-tuning e avaliações de segurança.1 O relatório técnico menciona filtragem para reduzir dados sensíveis, conteúdo inseguro e risco de recitação.2 Ainda assim, quem baixa, ajusta e publica um modelo assume parte da responsabilidade pelo comportamento final.
Para empresas, isso implica criar uma esteira própria: avaliação em dados internos, testes de segurança, políticas de uso, monitoramento, red teaming e revisão de licenças. Também é preciso decidir quando usar Gemma 3 localmente, quando recorrer a modelos fechados maiores e quando combinar ambos em uma arquitetura de roteamento.
A integração com ferramentas conhecidas, como Hugging Face Transformers, Ollama, JAX, Keras, PyTorch, vLLM e Gemma.cpp, reduz atrito de adoção.1 O suporte a Vertex AI, Cloud Run, Google AI Studio, Kaggle e Hugging Face cria caminhos diferentes para experimentação, fine-tuning e produção.
Gemma 3 reforça que a disputa de IA não acontece apenas no topo dos maiores modelos. Há uma camada estratégica em modelos portáteis, multimodais e ajustáveis, capazes de rodar mais perto dos dados e dos usuários. Para muitos produtos, essa camada pode ser mais decisiva que a maior pontuação em benchmark geral.
- Google, "Gemma 3: Google's new open model based on Gemini 2.0", 12 mar. 2025. ↩
- Gemma Team, Google DeepMind, "Gemma 3 Technical Report", 12 mar. 2025. ↩