OpenAI apresenta GPT-4o com foco multimodal e tempo real

A OpenAI apresentou o GPT-4o, novo modelo principal desenhado para raciocinar em tempo real sobre texto, áudio e visão.¹ O "o" de omni sinaliza a ambição do lançamento: reduzir a separação entre modalidades e tornar a interação com sistemas de IA mais próxima de uma conversa natural, com entrada e saída atravessando texto, imagem e voz.

O ponto técnico mais relevante é a mudança de arquitetura de experiência. Antes, o modo de voz do ChatGPT dependia de uma cadeia de modelos: transcrição de áudio, resposta textual e síntese de voz. Com o GPT-4o, a OpenAI descreve um modelo treinado de ponta a ponta em texto, visão e áudio, capaz de preservar sinais como entonação, múltiplos falantes e ruídos de ambiente de forma mais direta.¹

A empresa afirma que o modelo responde a entradas de áudio em até 232 milissegundos, com média de 320 milissegundos, além de igualar o GPT-4 Turbo em texto em inglês e código, melhorar idiomas não ingleses e ser mais rápido e barato na API. Para desenvolvedores, a promessa inclui o dobro de velocidade, metade do preço e limites de uso maiores em comparação com o GPT-4 Turbo.¹

Multimodalidade vira produto principal

O GPT-4o desloca multimodalidade de recurso complementar para núcleo da experiência. Não se trata apenas de enviar uma imagem para análise ou ditar uma pergunta. A proposta é que o modelo mantenha contexto entre fala, visão e texto, permitindo casos como tradução em tempo real, explicação de uma cena, apoio em reuniões, análise de screenshots e tutoria com interação mais fluida.

Essa mudança tem impacto direto em produto. Interfaces de IA podem deixar de depender tanto de caixas de texto e começar a operar sobre câmera, microfone, tela e documentos. Para aplicativos de educação, acessibilidade, atendimento, suporte técnico e análise de dados, a redução de latência pode ser tão importante quanto a qualidade da resposta.

Ainda assim, a OpenAI está liberando capacidades de forma gradual. Texto e imagem entram primeiro em ChatGPT, enquanto novos recursos de voz chegam em alpha para usuários Plus nas semanas seguintes. Esse ritmo reflete um desafio óbvio: áudio em tempo real amplia riscos de personificação, manipulação emocional, privacidade e moderação.

Acesso gratuito aumenta a pressão do mercado

Além do modelo, a OpenAI anunciou a expansão de ferramentas avançadas para usuários gratuitos do ChatGPT, incluindo acesso ao GPT-4o com limites, respostas com apoio da web, análise de dados, upload de arquivos, conversa sobre fotos, GPTs e memória.² Isso muda a linha de base do mercado. Recursos que pareciam reservados a planos pagos começam a entrar no uso cotidiano de uma base muito maior.

Para empresas, o anúncio reforça a necessidade de política clara sobre IA no trabalho. Se modelos mais capazes ficam disponíveis gratuitamente, colaboradores podem usá-los para resumir documentos, analisar planilhas, gerar texto e interpretar imagens sem passar por compras formais de software. A governança precisa acompanhar essa facilidade de acesso.

No lado de engenharia, o GPT-4o pede testes próprios. Melhor desempenho em benchmarks e menor preço de API não garantem qualidade em fluxos críticos. Times precisam avaliar idioma, latência real, consistência, custo por tarefa, privacidade de dados, comportamento com arquivos e limites de segurança.

O lançamento também mostra que a competição em IA generativa está entrando em uma fase de usabilidade. A vantagem não será apenas ter o modelo mais capaz em uma prova isolada, mas entregar inteligência multimodal rápida, barata e integrada a ferramentas onde pessoas já trabalham.

OpenAI, "Hello GPT-4o", 13 maio 2024. ↩
OpenAI, "Introducing GPT-4o and more tools to ChatGPT free users", 13 maio 2024. ↩