A OpenAI apresentou o GPT-4o, novo modelo principal desenhado para raciocinar em tempo real sobre texto, áudio e visão.1 O "o" de omni sinaliza a ambição do lançamento: reduzir a separação entre modalidades e tornar a interação com sistemas de IA mais próxima de uma conversa natural, com entrada e saída atravessando texto, imagem e voz.
O ponto técnico mais relevante é a mudança de arquitetura de experiência. Antes, o modo de voz do ChatGPT dependia de uma cadeia de modelos: transcrição de áudio, resposta textual e síntese de voz. Com o GPT-4o, a OpenAI descreve um modelo treinado de ponta a ponta em texto, visão e áudio, capaz de preservar sinais como entonação, múltiplos falantes e ruídos de ambiente de forma mais direta.1
A empresa afirma que o modelo responde a entradas de áudio em até 232 milissegundos, com média de 320 milissegundos, além de igualar o GPT-4 Turbo em texto em inglês e código, melhorar idiomas não ingleses e ser mais rápido e barato na API. Para desenvolvedores, a promessa inclui o dobro de velocidade, metade do preço e limites de uso maiores em comparação com o GPT-4 Turbo.1
Multimodalidade vira produto principal
O GPT-4o desloca multimodalidade de recurso complementar para núcleo da experiência. Não se trata apenas de enviar uma imagem para análise ou ditar uma pergunta. A proposta é que o modelo mantenha contexto entre fala, visão e texto, permitindo casos como tradução em tempo real, explicação de uma cena, apoio em reuniões, análise de screenshots e tutoria com interação mais fluida.
Essa mudança tem impacto direto em produto. Interfaces de IA podem deixar de depender tanto de caixas de texto e começar a operar sobre câmera, microfone, tela e documentos. Para aplicativos de educação, acessibilidade, atendimento, suporte técnico e análise de dados, a redução de latência pode ser tão importante quanto a qualidade da resposta.
Ainda assim, a OpenAI está liberando capacidades de forma gradual. Texto e imagem entram primeiro em ChatGPT, enquanto novos recursos de voz chegam em alpha para usuários Plus nas semanas seguintes. Esse ritmo reflete um desafio óbvio: áudio em tempo real amplia riscos de personificação, manipulação emocional, privacidade e moderação.
Acesso gratuito aumenta a pressão do mercado
Além do modelo, a OpenAI anunciou a expansão de ferramentas avançadas para usuários gratuitos do ChatGPT, incluindo acesso ao GPT-4o com limites, respostas com apoio da web, análise de dados, upload de arquivos, conversa sobre fotos, GPTs e memória.2 Isso muda a linha de base do mercado. Recursos que pareciam reservados a planos pagos começam a entrar no uso cotidiano de uma base muito maior.
Para empresas, o anúncio reforça a necessidade de política clara sobre IA no trabalho. Se modelos mais capazes ficam disponíveis gratuitamente, colaboradores podem usá-los para resumir documentos, analisar planilhas, gerar texto e interpretar imagens sem passar por compras formais de software. A governança precisa acompanhar essa facilidade de acesso.
No lado de engenharia, o GPT-4o pede testes próprios. Melhor desempenho em benchmarks e menor preço de API não garantem qualidade em fluxos críticos. Times precisam avaliar idioma, latência real, consistência, custo por tarefa, privacidade de dados, comportamento com arquivos e limites de segurança.
O lançamento também mostra que a competição em IA generativa está entrando em uma fase de usabilidade. A vantagem não será apenas ter o modelo mais capaz em uma prova isolada, mas entregar inteligência multimodal rápida, barata e integrada a ferramentas onde pessoas já trabalham.
- OpenAI, "Hello GPT-4o", 13 maio 2024. ↩
- OpenAI, "Introducing GPT-4o and more tools to ChatGPT free users", 13 maio 2024. ↩