A OpenAI lançou o GPT-4, descrito como um modelo grande multimodal que aceita entradas de imagem e texto e produz saídas em texto. A empresa afirma que o sistema apresenta desempenho de nível humano em diversos benchmarks profissionais e acadêmicos, embora ainda seja menos capaz que pessoas em muitos cenários reais.1
O anúncio eleva o patamar da discussão sobre IA generativa. Depois da adoção acelerada do ChatGPT, o GPT-4 traz duas mensagens simultâneas: capacidades maiores e risco maior. A OpenAI destaca avanços em testes, alinhamento e previsibilidade de treinamento, mas também reforça limitações como respostas incorretas, código com bugs e possibilidade de uso indevido.
Multimodalidade muda a interface
O ponto mais visível é a multimodalidade. Aceitar imagem e texto como entrada amplia o tipo de tarefa que um modelo pode interpretar: capturas de tela, diagramas, documentos fotografados, interfaces, gráficos e problemas que misturam linguagem com contexto visual. Mesmo com acesso inicial limitado para imagens, a direção do produto fica clara.
Para desenvolvedores, isso abre novas arquiteturas. Sistemas de suporte podem analisar screenshots; ferramentas de educação podem explicar exercícios visuais; fluxos de compliance podem comparar documentos; aplicações internas podem combinar texto livre e evidências visuais. A interface deixa de depender apenas de formulários e campos estruturados.
Ao mesmo tempo, multimodalidade aumenta a necessidade de avaliação. Um erro em texto já pode gerar confusão; um erro ao interpretar uma imagem pode afetar acessibilidade, diagnóstico, suporte técnico ou decisão operacional. Modelos multimodais precisam de testes que representem o uso real, não apenas benchmarks gerais.
Desempenho não dispensa governança
A OpenAI cita, entre outros resultados, que o GPT-4 passa em uma simulação do exame da ordem dos EUA com pontuação próxima ao topo dos participantes, enquanto o GPT-3.5 ficava próximo da faixa inferior.1 Esse tipo de comparação comunica avanço, mas não deve ser confundido com autorização irrestrita para uso em processos sensíveis.
O próprio lançamento dedica espaço a riscos e mitigações. A OpenAI afirma ter envolvido mais de 50 especialistas em áreas como alinhamento, cibersegurança, biorrisco, confiança e segurança internacional para testar o modelo de forma adversarial.1 Também relata redução na tendência de responder a solicitações de conteúdo proibido em relação ao GPT-3.5.
Para empresas, a leitura pragmática é que GPT-4 precisa entrar por casos de uso bem definidos. É necessário medir acurácia, custo por interação, privacidade, retenção de dados, auditoria, segurança de prompts, revisão humana e impacto sobre fluxos existentes. Um modelo mais forte pode reduzir trabalho repetitivo, mas também pode produzir erros mais persuasivos.
O acesso gradual reforça esse cuidado. Assinantes do ChatGPT Plus recebem GPT-4 com limite de uso, enquanto a API começa por lista de espera. Essa restrição indica que capacidade computacional e estabilidade operacional ainda fazem parte do produto. Em produção, desempenho do modelo, latência e disponibilidade precisam ser tratados como componentes arquiteturais.
GPT-4 consolida a IA generativa como plataforma técnica, não apenas aplicativo. O valor para empresas e desenvolvedores dependerá menos de uma demonstração impressionante e mais da capacidade de incorporar o modelo a processos com evidência, controle e responsabilidade.