A Anthropic rodou um experimento chamado Project Deal. O setup era simples: um marketplace onde agentes Claude negociavam com outros agentes Claude — sem humano na mesa. O objetivo declarado era descobrir até onde os agentes conseguem entender o que os humanos querem e fechar acordos que eles aprovariam.
Os agentes fecharam 186 acordos. Valor total de transação: pouco mais de $4.000. A lacuna entre o que os agentes de IA conseguem fazer hoje e o que os empreendedores imaginam que conseguem é o dado mais importante do experimento.
O que foi o Project Deal
O Project Deal foi um experimento interno da Anthropic que testou agentes Claude em um marketplace simulado. Cada agente representava um lado da negociação — comprador ou vendedor — com instruções sobre o que cada parte queria e quais concessões eram aceitáveis.
Os agentes não tinham acesso a dinheiro real nem a produtos físicos. O experimento media a capacidade dos modelos de identificar preferências humanas implícitas, fazer concessões estratégicas e fechar acordos que os humanos validariam como satisfatórios.
Resultado: 186 acordos fechados. Valor total de transação de aproximadamente $4.000. Taxa de aprovação humana alta o suficiente para ser publicada como resultado positivo pela empresa.
O que esse número revela sobre o estado real dos agentes
186 acordos com $4.000 de valor total significa uma média de menos de $22 por transação. Isso não é um dado negativo — é um dado calibrador. O experimento não foi desenhado para maximizar valor de transação. Foi desenhado para testar se os modelos conseguem entender intenção humana em contexto de negociação.
O que o dado revela é a distância entre o estado atual dos agentes autônomos e o que costuma ser prometido em demos de IA para negócios. Os agentes conseguem negociar em ambientes controlados, com instruções claras e escopo definido. O que eles ainda não conseguem fazer de forma confiável é:
- Negociar em ambientes não estruturados — onde as regras não são declaradas explicitamente e as preferências mudam durante a conversa
- Lidar com ambiguidade de intenção — quando o usuário não sabe exatamente o que quer, ou quando o que quer não é o que é melhor para ele
- Gerenciar risco sem supervisão — a maioria dos casos de uso real que envolve dinheiro exige um humano como checkpoint em algum momento do fluxo
Esses limites não são falhas temporárias que vão desaparecer na próxima versão. São características estruturais do estado atual da tecnologia que qualquer empreendedor precisa entender antes de desenhar um sistema que depende de agentes autônomos.
Por que os empreendedores erram ao avaliar agentes de IA
O ciclo de erro é previsível. O empreendedor assiste a um demo de agente de IA — o demo funciona perfeitamente. Ele tenta replicar no negócio — funciona razoavelmente em ambiente controlado. Ele coloca em produção — o agente começa a se comportar de formas inesperadas quando encontra casos que o demo não cobriu.
O problema não é que os demos mentem. O problema é que demos mostram o caso feliz. Produção exige lidar com os casos que o criador do demo não imaginou.
O Project Deal é valioso justamente porque a Anthropic mostrou os números reais de um experimento real — incluindo as limitações. $4.000 de transação em 186 acordos é o dado honesto sobre onde a tecnologia está. Não onde ela vai estar daqui a dois anos.
O modo agentivo dos modelos avançou significativamente, mas avançar não significa ter chegado. O praticante que entende a diferença entre “o modelo consegue fazer isso em laboratório” e “o modelo faz isso de forma confiável em produção” tem uma vantagem real na hora de desenhar sistemas.
O que o Claude Partner Network de $100M muda
Junto com o Project Deal, a Anthropic anunciou um investimento de $100 milhões no Claude Partner Network — um programa para trazer Accenture, Deloitte, Cognizant e Infosys como parceiros de canal enterprise.
Esse movimento revela a estratégia: a Anthropic está construindo o canal enterprise enquanto experimenta as capacidades dos agentes. O Partner Network é o canal de distribuição. O Project Deal é a pesquisa sobre o que os agentes conseguem fazer. Os dois se conectam.
Para o empreendedor médio, o que isso significa na prática:
- O mercado enterprise de IA está sendo construído por parceiros de consultoria, não por adoção direta das APIs
- Quem souber construir aplicações com Claude antes do canal enterprise amadurecer tem janela de diferenciação
- A janela está se fechando — não porque os modelos vão ficar mais difíceis, mas porque os canais de distribuição vão comoditizar o acesso
O que o praticante acidental precisa entender sobre agentes
O praticante acidental que viu o Project Deal e pensou “então agentes de IA já conseguem negociar por mim?” está fazendo a pergunta errada. A pergunta certa é: em que condições os agentes funcionam de forma confiável, e quais dessas condições eu consigo garantir no meu contexto?
A capacidade dos agentes de acessar sistemas externos está avançando rapidamente. O que não avança no mesmo ritmo é o método de design desses sistemas — como definir o escopo do agente, onde colocar os checkpoints humanos, como lidar com os casos de borda.
O Project Deal funcionou porque o escopo era extremamente definido: negociar dentro de um marketplace com regras claras, com preferências declaradas, sem variáveis não previstas. Quando você retira qualquer uma dessas condições, a taxa de sucesso cai.
O mecanismo de contexto dos modelos é a variável mais crítica que os praticantes ignoram quando desenham agentes. Entender o que o modelo “sabe” em cada momento do fluxo é o que separa um agente que funciona de um que alucina na primeira situação inesperada.
O que fazer com essa informação
Se você está pensando em construir um sistema com agentes autônomos:
- Defina o escopo antes de definir a ferramenta. O Project Deal funcionou porque tinha escopo fechado. Qual é o escopo do seu agente? O que ele não deveria fazer?
- Mapeie os checkpoints humanos. Em qualquer fluxo com valor financeiro ou consequência real, existe um ponto onde um humano precisa confirmar. Saber onde é esse ponto é parte do design do sistema.
- Comece pelo caso de borda, não pelo caso feliz. O demo mostra o caso feliz. Você precisa saber como o agente se comporta quando o usuário faz algo inesperado.
Os agentes de IA estão evoluindo. O método de design de sistemas com agentes está evoluindo mais devagar — porque exige experiência com falhas reais, não apenas com demos funcionando.
Leia também
- GPT-5.5: modo agentivo e o que o praticante precisa entender
- Claude Connectors: o que muda quando IA começa a agir nos seus sistemas
- Por que o Claude “esquece” tudo que você ensinou a ele
Perguntas frequentes sobre o Project Deal e agentes de IA
O que foi o Project Deal da Anthropic?
Project Deal foi um experimento da Anthropic onde agentes Claude negociavam com outros agentes Claude em um marketplace simulado. Os agentes fecharam 186 acordos com valor total de cerca de $4.000, testando a capacidade dos modelos de entender preferências humanas e fechar negociações que os humanos aprovariam.
O Claude consegue negociar acordos por mim?
Em ambientes controlados com escopo definido e regras claras, sim — como demonstrado pelo Project Deal. Em ambientes não estruturados com preferências ambíguas e variáveis imprevisíveis, a confiabilidade cai significativamente. O método de design do sistema é o que determina se o agente vai funcionar em produção.
O que é o Claude Partner Network?
O Claude Partner Network é um programa de $100 milhões lançado pela Anthropic em 2026 para trazer grandes consultorias como Accenture, Deloitte, Cognizant e Infosys como parceiros de canal enterprise. Uma parte significativa do investimento vai diretamente para os parceiros como suporte a treinamento e desenvolvimento de mercado.
Como saber se um agente de IA vai funcionar em produção?
O indicador mais confiável é o comportamento em casos de borda — situações que o designer do sistema não previu. Agentes que foram testados apenas no caso feliz tendem a falhar de formas inesperadas em produção. O método de design inclui mapear explicitamente o escopo, os checkpoints humanos e os casos de borda antes de colocar o sistema em operação real.




