Pular para o conteúdo
Inscreva-se
Ferramentas

O Claude ficou pior de propósito — e o que isso revela sobre depender de ferramenta que você não controla

F

22 de abril de 2026 · 10 min de leitura

O Claude ficou pior de propósito — e o que isso revela sobre depender de ferramenta que você não controla

Você construiu um workflow em cima do Claude. Ele funcionava. Em fevereiro de 2026, começou a errar. Simplificava onde devia aprofundar, parava antes de terminar, ignorava instruções que antes seguia direitinho. Você pensou que estava fazendo algo errado. Não estava. O Claude foi intencionalmente degradado — e a Anthropic só confirmou depois que os dados vieram a público.

“Quando você constrói dependência direta de uma ferramenta sem método por baixo, o fornecedor decide quando a sua produtividade cai. Não você.”

Isso não é teoria. É o que 6.852 sessões de dados mostraram em abril de 2026. E a implicação vai muito além da Anthropic.

O estudo que a Anthropic não conseguiu ignorar

Stella Laurenzo, Senior Director do grupo de IA da AMD, não foi ao Twitter reclamar. Foi ao GitHub com dados. Em 2 de abril de 2026, ela abriu uma issue com uma análise de 6.852 sessões do Claude Code, 17.871 blocos de raciocínio e 234.760 chamadas de ferramentas.

O que ela encontrou: a partir de fevereiro de 2026, a profundidade de raciocínio estimada do Claude caiu de forma abrupta e consistente. Não era impressão subjetiva. Era um padrão mensurável em dezenas de métricas:

  • Aumento de “premature stopping” — o modelo parava antes de completar tarefas complexas
  • Aumento de comportamento “simplest fix” — preferia o caminho mais rápido ao invés do correto
  • Mudança de padrão “research-first” para “edit-first” — começava a editar antes de entender o problema
  • Mais loops de raciocínio sem conclusão

A conclusão do estudo: queda de 67% na qualidade de raciocínio comparado ao período anterior a fevereiro de 2026. A equipe da AMD já havia migrado para um concorrente antes do estudo ser publicado.

O que aconteceu entre fevereiro e a publicação do estudo? Nada oficial. Nenhuma comunicação proativa da Anthropic. O changelog existia, sepultado entre 14 lançamentos de produto e 5 interrupções de serviço do mês de março. Para todos os efeitos práticos, a mudança foi silenciosa.

O que a Anthropic realmente mudou — e por quê

Quando pressionada, a Anthropic confirmou duas mudanças:

  1. 9 de fevereiro: o Opus 4.6 passou a usar “adaptive thinking” por padrão — o modelo decide sozinho quando usar raciocínio profundo
  2. 3 de março: o padrão de esforço foi alterado de “alto” para “médio” (effort level 85) para o Opus 4.6

A justificativa da Anthropic foi que o “medium effort” é o melhor equilíbrio entre inteligência, latência e custo para a maioria dos usuários. Traduzindo sem eufemismo: processar menos tokens por sessão reduz o custo de computação da Anthropic. Você não foi consultado. A decisão foi tomada com base no que é melhor para a estrutura de custos deles — não para o seu workflow.

Isso não é vilania. É como toda plataforma opera. O problema é que você pode ter construído um sistema inteiro assumindo que o comportamento padrão era imutável. Não era.

O que muda na prática quando o esforço cai de “alto” para “médio”

O “effort level” no Claude não é apenas velocidade. É o quanto o modelo se dedica a seguir instruções com precisão antes de gerar uma resposta.

Em esforço alto:

  • O modelo lê o contexto completo antes de agir
  • Tende a pesquisar antes de editar (lê todos os arquivos relevantes)
  • Segue instruções complexas de múltiplas etapas sem simplificar
  • Para e pergunta quando há ambiguidade em vez de adivinhar

Em esforço médio:

  • Prioriza velocidade de resposta
  • Tende a editar antes de pesquisar quando o contexto parece claro
  • Simplifica instruções de múltiplas etapas
  • Assume premissas em vez de confirmar

Para uso casual, a diferença é quase invisível. Para workflows que dependem de raciocínio preciso em múltiplas etapas — automações, geração de código, análise de documentos complexos — a diferença é exatamente o que o estudo da AMD mediu: 67% de queda na profundidade de raciocínio.

Como aponta o estudo de IA com dados proprietários como vantagem competitiva, o que diferencia quem usa IA com resultado de quem usa sem resultado não é a ferramenta — é o nível de controle sobre o que a ferramenta está fazendo. Quando esse controle está fora das suas mãos, qualquer mudança de plataforma se traduz em resultado imprevisível.

Você pode restaurar o comportamento antigo — mas tem um custo

Sim, existe uma forma de recuperar o esforço alto. Você pode configurar manualmente o effort level nas configurações do Claude Code, ativando “extended thinking” ou ajustando o parâmetro diretamente.

O problema: essa configuração existe porque existe reclamação pública suficiente. Antes do estudo da Stella Laurenzo viralizar, a maioria dos usuários não sabia que o esforço havia sido reduzido — muito menos que havia uma forma de reverter. E há algo mais importante aqui.

A próxima mudança pode não ter reversão disponível. Ou pode requerer um plano mais caro. Ou pode afetar um parâmetro diferente que você ainda nem descobriu que existe.

A questão não é se você consegue corrigir isso agora. É que você não deveria precisar reagir. Você deveria saber o que o modelo está fazendo e ter controle suficiente sobre o comportamento independente de mudanças de padrão.

Por que isso vai acontecer de novo

A Anthropic não é única nesse comportamento. É o padrão de toda grande plataforma de IA:

  • O ChatGPT mudou o comportamento de geração de código silenciosamente em 2024
  • O GitHub Copilot alterou a política de uso de código em projetos comerciais sem comunicado adequado
  • O Gemini Advanced alterou os limites de contexto disponíveis sem anúncio formal

Isso não é conspiração. É o modelo de negócio de toda plataforma que equilibra qualidade, custo e escala. Você tem acesso temporário a um serviço que eles controlam. As regras mudam quando os custos mudam.

Quem construiu sem o passo zero de estruturar o processo antes da ferramenta é o mais vulnerável. Porque o processo está dentro da ferramenta, não fora dela. Quando a ferramenta muda, o processo vai junto.

O praticante acidental típico não percebe que está nessa posição até o workflow quebrar. E quando ele descobre, a reação instintiva é migrar para outra ferramenta — o que apenas reinicia o ciclo.

O antídoto que não depende da Anthropic

A questão certa não é “qual ferramenta eu devo usar?”. É “o que do meu processo pode sobreviver a uma troca de ferramenta sem quebrar?”.

Se a resposta for “nada” — você não tem processo. Tem dependência.

O praticante que tem método constrói de forma diferente:

  • Documenta o comportamento esperado da ferramenta, não apenas o resultado. Quando o comportamento muda, ele detecta antes de o sistema quebrar.
  • Separa a lógica do processo da interface da ferramenta. Os prompts, as regras de validação e os critérios de qualidade vivem fora do Claude — em documentos que qualquer modelo pode ler.
  • Testa mudanças de comportamento com casos de referência. Um conjunto de inputs com outputs esperados que detecta degradações antes de chegarem à produção.
  • Não confia em padrões de plataforma para produção. Sempre configura explicitamente o que importa — effort level, temperatura, instruções do sistema — em vez de depender do default do dia.

Nada disso é complexo. Mas exige ter o método fora da ferramenta. É exatamente o que quem foi surpreendido pelo downgrade do Claude em fevereiro não tinha.

Quando o Claude voltar a mudar os padrões — e vai —, o praticante com método vai detectar na hora e ajustar em minutos. O praticante sem método vai passar semanas depurando o que quebrou sem saber por quê.

A diferença não é qual ferramenta você usa. É o que você entende sobre o mecanismo por baixo.


Leia também

Perguntas frequentes

O Claude realmente ficou pior de propósito?

Sim. A Anthropic confirmou que alterou o “effort level” padrão do Opus 4.6 de “alto” para “médio” em março de 2026, citando equilíbrio entre inteligência, latência e custo. A decisão foi registrada em changelog, mas não houve comunicação proativa aos usuários que já tinham workflows construídos sobre o comportamento anterior.

O que é “effort level” no Claude e como ele afeta os resultados?

Effort level é o parâmetro que controla quanto processamento o modelo dedica antes de gerar uma resposta. Em nível alto, o Claude pesquisa o contexto completo, segue instruções complexas com precisão e para para confirmar ambiguidades. Em nível médio, prioriza velocidade, simplifica etapas e faz mais suposições. Para uso casual a diferença é pequena. Para workflows de múltiplas etapas, o estudo da AMD documentou queda de 67% na profundidade de raciocínio.

Como posso restaurar o comportamento de esforço alto no Claude?

É possível configurar manualmente o effort level nas configurações do Claude Code ou incluir instruções explícitas no system prompt solicitando raciocínio aprofundado. Porém, a solução mais robusta é não depender de padrões de plataforma: documentar o comportamento esperado, testar mudanças com casos de referência e manter a lógica do processo fora da ferramenta.

Isso é exclusivo do Claude ou outras ferramentas de IA também fazem isso?

Todas as grandes plataformas de IA ajustam comportamentos padrão com o tempo, geralmente sem comunicação adequada. ChatGPT, GitHub Copilot e Gemini passaram por mudanças similares. O padrão é consistente porque todas equilibram qualidade, custo e escala de forma contínua. Quem depende de comportamento padrão sem documentá-lo está vulnerável em qualquer plataforma.

O que separa quem foi surpreendido pelo downgrade de quem não foi?

Quem não foi surpreendido tinha o processo documentado fora da ferramenta: prompts explícitos com configurações definidas, casos de teste com outputs de referência e lógica de validação independente da interface. Quem foi surpreendido tinha o processo dentro da ferramenta, confiando em comportamento padrão que não controlava.

Artigos Relacionados