Anthropic mostra computer use para agentes operarem interfaces

Anthropic apresentou uma nova capacidade chamada computer use, em beta público, para que desenvolvedores orientem Claude a usar computadores de modo parecido com uma pessoa: observar a tela, mover o cursor, clicar em botões e digitar texto. A novidade chega junto de uma versão atualizada do Claude 3.5 Sonnet e do anúncio do Claude 3.5 Haiku.¹

O anúncio desloca a discussão de agentes de IA para um território mais concreto. Em vez de limitar o modelo a APIs previamente integradas, computer use permite operar interfaces existentes. Isso abre oportunidades em sistemas legados, ferramentas internas, navegadores, painéis administrativos e fluxos que ainda não têm automação formal.

Operar telas muda o custo de integração

Grande parte do software corporativo foi feita para humanos, não para agentes. ERPs, CRMs, portais bancários, ferramentas de backoffice e consoles de nuvem geralmente expõem botões, formulários e tabelas antes de exporem APIs bem documentadas. Um modelo capaz de navegar por telas reduz a barreira inicial para automatizar tarefas, especialmente quando criar integração direta é caro ou politicamente difícil.

A Anthropic cita que empresas como Asana, Canva, Cognition, DoorDash, Replit e The Browser Company já exploram cenários com dezenas ou centenas de passos. Replit, por exemplo, usa capacidades de UI e navegação do Claude 3.5 Sonnet para avaliar aplicações durante a construção no Replit Agent.¹

Esse tipo de uso aponta para agentes mais próximos do cotidiano de trabalho. Um assistente pode preencher formulários, consultar sistemas, comparar informações, mover dados entre ferramentas e validar estados visuais. A promessa, porém, vem acompanhada de uma exigência: cada ação precisa ser observável, reversível quando possível e limitada por permissões claras.

Beta público ainda exige controle rigoroso

A própria Anthropic descreve computer use como experimental, por vezes desajeitado e sujeito a erros. Essa honestidade é relevante. Interfaces gráficas são ambíguas: botões mudam de lugar, estados carregam devagar, modais escondem conteúdo, captchas aparecem, sessões expiram e mensagens de erro nem sempre são estruturadas.

Em ambientes de produção, isso impede qualquer adoção ingênua. Agentes com acesso a telas precisam de escopo restrito, ambientes de teste, confirmação humana em ações sensíveis, trilhas de auditoria e bloqueios para operações irreversíveis. O risco não é apenas técnico; é operacional. Um clique errado em folha de pagamento, CRM, faturamento ou infraestrutura pode gerar impacto real.

A vantagem é que a capacidade chega por API, Amazon Bedrock e Google Cloud Vertex AI, o que aproxima o experimento de arquiteturas empresariais já usadas para governança de IA. Ainda assim, disponibilizar o modelo em plataformas gerenciadas não resolve sozinho temas como identidade, autorização e segregação de função.

Claude 3.5 Sonnet reforça o foco em programação

O anúncio também posiciona o Claude 3.5 Sonnet atualizado como avanço em codificação e uso de ferramentas. A Anthropic afirma que o modelo melhora em SWE-bench Verified e TAU-bench, com ganhos especialmente relevantes em tarefas agentic coding e tool use.¹

Essa combinação explica a estratégia. Agentes que operam interfaces precisam raciocinar sobre telas, mas também precisam escrever scripts, interpretar logs, chamar APIs, entender erro e decompor tarefas longas. Computer use é mais útil quando o modelo sabe alternar entre automação visual, código e ferramentas estruturadas.

Para empresas, o recado prático é começar pequeno. Bons pilotos envolvem tarefas repetitivas, baixo risco, dados não sensíveis e validação humana. Computer use transforma interfaces em superfície de automação, mas a maturidade virá da engenharia ao redor: políticas, logs, limites, testes e desenho cuidadoso de responsabilidade.

Anthropic, "Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku", 22 out. 2024. ↩