O Google usou o I/O para ampliar a família Gemini com o Gemini 1.5 Flash, um modelo mais leve voltado a velocidade, eficiência e tarefas de alto volume.1 A empresa também destacou o avanço do contexto longo, recursos para desenvolvedores e o Projeto Astra, visão do Google DeepMind para assistentes de IA capazes de ver, ouvir, lembrar contexto e responder de forma mais natural.
O anúncio chega em um momento em que a disputa por IA generativa passa por duas pressões simultâneas. De um lado, modelos maiores e mais capazes elevam expectativas em raciocínio, multimodalidade e qualidade. De outro, produtos reais precisam de latência baixa, custo previsível e escalabilidade. O 1.5 Flash é a resposta do Google para esse segundo eixo.
Segundo a empresa, tanto o Gemini 1.5 Pro quanto o 1.5 Flash ficam disponíveis em prévia pública com janela de contexto de 1 milhão de tokens no Google AI Studio e no Vertex AI. O 1.5 Pro também recebe acesso via lista de espera para contexto de 2 milhões de tokens.1 Para desenvolvedores, isso transforma documentos longos, vídeos, bases de código e conjuntos extensos de dados em insumos mais viáveis para prompts.
Flash mira o custo operacional da IA
Nem toda aplicação precisa do modelo mais pesado disponível. Chatbots de atendimento, classificação, extração, triagem, respostas curtas, automações internas e fluxos com grande volume podem se beneficiar mais de um modelo rápido e eficiente do que de uma opção máxima em capacidade. O Gemini 1.5 Flash se posiciona exatamente nessa faixa.
Essa segmentação é importante para arquitetura. Equipes de produto podem rotear tarefas por complexidade: usar modelos menores para operações frequentes e acionar modelos maiores para casos que exigem raciocínio mais profundo. Esse padrão reduz custo e melhora latência sem abandonar qualidade quando ela é necessária.
O Google também anunciou novidades na API, como extração de frames de vídeo, chamadas de função paralelas e a chegada de cache de contexto para tornar prompts longos mais práticos e econômicos.2 Esses recursos mostram que a competição não está apenas no modelo, mas na camada de ferramentas que permite transformar IA em software de produção.
Astra mostra a ambição de assistentes universais
O Projeto Astra aponta para uma interface mais contínua com IA. A demonstração coloca visão, fala e memória de curto prazo em um assistente que interpreta o ambiente e responde com baixa latência. Ainda é uma visão em desenvolvimento, mas deixa claro o objetivo: tirar a IA do campo de perguntas isoladas e levá-la para situações em que contexto visual e temporal importam.
Para empresas, essa direção abre oportunidades e riscos. Em suporte técnico, treinamento, inspeção, educação e acessibilidade, assistentes multimodais podem reduzir atrito. Ao mesmo tempo, câmera e microfone tornam privacidade, consentimento, retenção de dados e segurança de dispositivos temas centrais desde o desenho do produto.
O Google também reforçou a linha Gemma, incluindo PaliGemma para tarefas de visão e linguagem.2 Isso cria uma estratégia em camadas: modelos Gemini por API e nuvem, modelos abertos leves para desenvolvedores e experiências de assistente que mostram o destino de interface.
O I/O deixa uma mensagem clara ao mercado: IA generativa precisa ser capaz, mas também precisa caber em produtos. O Gemini 1.5 Flash, o contexto longo e o Projeto Astra atacam essa combinação de custo, escala e interação natural.
- Google, "Gemini breaks new ground with a faster model, longer context, AI agents and more", 14 maio 2024. ↩
- Google, "Gemini 1.5 Pro updates, 1.5 Flash debut and 2 new Gemma models", 14 maio 2024. ↩