Anthropic lança Claude Opus 4.6 para código, agentes e contexto longo

A Anthropic lançou o Claude Opus 4.6 com foco em programação, agentes de longa duração, revisão de código, depuração e trabalho em bases maiores.¹ O modelo também estreia, em beta, uma janela de contexto de 1 milhão de tokens na família Opus, além de novos controles para ajustar esforço, velocidade e custo.

O anúncio chega em um momento em que a disputa entre modelos de fronteira passa cada vez menos por respostas isoladas e cada vez mais por capacidade de executar trabalho. Para desenvolvedores, o teste real não é apenas completar um trecho de código. É entender um repositório, planejar mudança, rodar comandos, encontrar falhas, corrigir regressões e sustentar coerência por muitas etapas.

Código vira avaliação de trabalho contínuo

A Anthropic afirma que o Opus 4.6 planeja com mais cuidado, mantém tarefas agentic por mais tempo, opera com mais confiabilidade em codebases grandes e melhora revisão e debugging para detectar os próprios erros.¹ Essa combinação mira diretamente o espaço de agentes de software, no qual a maior fragilidade costuma aparecer depois dos primeiros minutos: contexto cresce, decisões antigas ficam enterradas e pequenos erros se acumulam.

O modelo é apresentado com desempenho forte em avaliações como Terminal-Bench 2.0, que mede tarefas agentic de código e sistema, além de resultados em provas amplas de raciocínio e trabalho de conhecimento.¹ Benchmarks não substituem validação em repositórios reais, mas ajudam a entender onde os fornecedores querem competir: menos autocomplete, mais execução em ambiente técnico.

No Claude Code, a Anthropic também introduz a possibilidade de montar equipes de agentes para trabalhar em conjunto.¹ Essa direção muda o papel do desenvolvedor. Em vez de conversar com um único assistente, ele passa a distribuir investigação, implementação, revisão e validação entre agentes com tarefas distintas. O desafio passa a ser coordenação, não apenas prompt.

Contexto longo precisa de controle de custo

A janela de 1 milhão de tokens em beta é uma novidade relevante para a classe Opus.¹ Em tese, ela permite incluir repositórios maiores, documentação extensa, logs, especificações e histórico de decisões em uma única sessão. Na prática, contexto longo só é útil quando o modelo sabe priorizar. Colocar tudo na janela pode aumentar custo, latência e ruído se não houver boa seleção.

Por isso, a compaction na API merece atenção. O recurso permite que Claude resuma o próprio contexto para realizar tarefas mais longas sem esbarrar nos limites.¹ Para agentes, essa é uma peça de infraestrutura: sessões extensas precisam transformar histórico bruto em memória operacional, preservando restrições, decisões e evidências.

A Anthropic também apresenta adaptive thinking e controles de effort. O modelo pode ajustar quanto usa raciocínio estendido conforme pistas de contexto, enquanto desenvolvedores ganham controle sobre inteligência, velocidade e custo.¹ Essa granularidade é importante em produção. Nem toda chamada precisa do máximo de deliberação. Uma revisão complexa pode justificar esforço alto; uma transformação mecânica talvez não.

Produto e API avançam juntos

O Opus 4.6 está disponível no Claude.ai, na API e em grandes plataformas cloud, com identificador claude-opus-4-6 e preço mantido em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída.¹ A Anthropic também destaca melhorias no Claude in Excel e uma prévia de pesquisa do Claude in PowerPoint, sinalizando que o mesmo modelo tenta cobrir código e trabalho de escritório.

Essa amplitude mostra uma disputa por agentes capazes de operar em ferramentas, não apenas responder no chat. Para empresas, a pergunta prática é como separar usos: revisão de código, análise financeira, documentação, pesquisa e automação de apresentações têm riscos diferentes, dados diferentes e critérios de sucesso diferentes.

No desenvolvimento de software, o Opus 4.6 reforça uma tendência clara. Modelos avançados estão sendo avaliados pela capacidade de agir com disciplina: planejar, dividir tarefas, manter contexto, usar ferramentas, revisar mudanças e explicar trade-offs. A produtividade vem quando esse comportamento se encaixa em pipelines com testes, revisão humana e políticas de acesso. Sem isso, contexto longo e agentes múltiplos apenas aumentam a superfície de erro.

Anthropic, "Introducing Claude Opus 4.6", 5 fev. 2026. ↩