Pular para o conteúdo
Inscreva-se
Ferramentas

DeepSeek V4: 80,6% no SWE-bench a 1/21 do preço do Claude — o que isso muda no seu critério

F

25 de abril de 2026 · 8 min de leitura

DeepSeek V4 — 80,6% benchmark a 1/21 do preço do Claude

A crença que organizava tudo era simples: modelo de qualidade custa caro. Era a narrativa que justificava pagar US$ 20, US$ 30, US$ 100 por mês para ter acesso ao “melhor”. Era o argumento implícito em cada lançamento das Big Techs — qualidade tem preço, e você não pode ter uma sem o outro.

O DeepSeek V4 acabou de colapsar essa narrativa com dados.

Quando um modelo a 1/7 do preço empata ou supera o mais caro em benchmarks de código, o critério “preço = qualidade” não é mais defensável. E as Big Techs sabem disso.

O que é o DeepSeek V4 — os dados reais

DeepSeek lançou preview do seu quarto modelo de geração com dois SKUs. O V4-Pro tem 1,6 trilhão de parâmetros, janela de contexto de 1 milhão de tokens e custa US$ 1,74 por milhão de tokens de entrada / US$ 3,48 por milhão de tokens de saída. O V4-Flash, versão mais rápida e enxuta (284B parâmetros), fica em US$ 0,14/M input e US$ 0,28/M output.

Para ter referência: Claude Opus 4.6 custa US$ 15/M input e US$ 75/M output. GPT-4o custa US$ 2,50/M input e US$ 10/M output. O V4-Pro, ao US$ 3,48/M output, entra na faixa do GPT-4o mas com performance que ultrapassa em benchmarks específicos.

O modelo foi treinado em 16.000 GPUs Hopper com custo total de US$ 5,6 milhões — dobrando a eficiência de treinamento do próprio V3. Open-source, disponível para deployment local ou via API no site oficial.

Os números que desafiam a narrativa de preço

No SWE-bench Verified — benchmark padrão para avaliação de modelos em tarefas reais de engenharia de software — o DeepSeek V4-Pro marcou 80,6%. Claude Opus 4.6 marcou 80,8%. Diferença de 0,2 pontos percentuais. O V4-Pro custa US$ 3,48/M tokens de saída. O Claude Opus custa US$ 75/M.

Em benchmarks de código, o V4-Pro supera o Claude:

  • LiveCodeBench: 93,5% (DeepSeek V4-Pro) vs 88,8% (Claude Opus 4.6)
  • Terminal-Bench 2.0: 67,9% vs 65,4%
  • Codeforces Rating: 3.206 (nenhum score equivalente reportado pelo Claude)

Esses não são benchmarks sintéticos desenhados para favorecer um modelo. São métricas de tarefas de desenvolvimento real, verificadas por terceiros. E um modelo que custa frações de centavo por token os domina.

A narrativa que as Big Techs construíram — e como ela os beneficia

Há um motivo para a narrativa “qualidade custa caro” ter sido tão eficaz durante tanto tempo. Ela não é apenas marketing — é uma convicção sincera de quem estava acostumado a que infraestrutura cara implicasse resultado superior.

Mas há um interesse claro das Big Techs em manter essa crença viva. Quando o praticante acredita que o modelo mais barato é necessariamente pior, ele continua pagando premium. Quando ele questiona isso e começa a comparar por resultado real de negócio, a premium se torna difícil de justificar.

A questão não é que as empresas estejam mentindo sobre qualidade. É que elas enfatizam diferenças de performance em contextos onde a diferença não importa para a maioria dos casos de uso reais. 0,2% de diferença no SWE-bench é irrelevante para 95% das tarefas que o praticante roda. O custo 20x mais alto não é.

Isso é o que as Big Techs preferem que você não calcule.

O que muda no seu critério de escolha de modelo

Antes do DeepSeek V4, a heurística funcional era: se preciso de qualidade máxima, pago o premium. Essa heurística tinha sentido quando havia uma lacuna real de performance que justificava o preço.

Com V4-Pro em empate técnico e V4-Flash com US$ 0,14/M tokens, o critério muda:

  • Para tarefas de código: DeepSeek V4-Pro supera Claude em benchmarks relevantes a 1/21 do preço de saída
  • Para tarefas de análise e raciocínio: Gap ainda existe com modelos frontier mais recentes (GPT-5.4, Gemini 3.1 Pro) — de 3 a 6 meses de defasagem
  • Para prototipar e iterar: V4-Flash a US$ 0,14/M torna iteração agressiva economicamente viável sem precedente
  • Para casos sensíveis a dados: Open-source com deployment local elimina dependência de API

O critério que permanece relevante: qual é a tarefa específica? Não existe mais “o melhor modelo” — existe o modelo mais adequado para o caso de uso, no trade-off certo de custo e latência.

Como usar o DeepSeek V4 hoje

O V4 está disponível em preview via API pública e como modelo open-source para deployment local. Formas de acesso:

  • API oficial: api.deepseek.com — mesma interface OpenAI-compatível, chave API via painel
  • Via OpenRouter: roteamento automático com fallback, pronto para integrar no mesmo código que usa Claude ou GPT
  • Local via Ollama ou LM Studio: modelo open-source, roda localmente, zero custo por token após setup
  • Via NVIDIA NIM: disponível no catálogo gratuito de modelos do NIM, sem necessidade de chave DeepSeek

Estratégia prática: use V4-Flash para tarefas de alta volume (summarização, extração, classificação), V4-Pro para tarefas de código e raciocínio complexo. Reserve modelos frontier mais caros para os casos onde os benchmarks mostram diferença real — principalmente raciocínio de conhecimento geral e tarefas ambíguas sem critério objetivo.

Como discuti ao analisar o que muda quando modelos viram commodity, a gratuidade e o baixo custo não resolvem o problema de método. Mas eles eliminam o custo como argumento para não experimentar com disciplina.

E para entender por que mesmo com ferramentas melhores e mais baratas muitos praticantes continuam sem resultado, vale ler sobre o loop de lançamentos que fabrica ansiedade — o V4 vai ter um V5, e o ciclo recomeça.


Leia também

Perguntas frequentes

O DeepSeek V4 é realmente comparável ao Claude e GPT?

Em benchmarks de código (SWE-bench, LiveCodeBench), sim — o V4-Pro empata ou supera o Claude Opus 4.6. Em tarefas de raciocínio geral e conhecimento, ainda existe uma defasagem de 3-6 meses em relação aos modelos frontier mais recentes como GPT-5.4 e Gemini 3.1 Pro.

Vale a pena trocar meu modelo atual pelo DeepSeek V4?

Depende da tarefa. Para código e raciocínio técnico, V4-Pro é candidato real ao custo de 1/21 do Claude Opus. Para tarefas de raciocínio geral complexo e ambíguo, o gap de performance pode justificar o premium. O critério deve ser medição por resultado concreto, não heurística de preço.

O DeepSeek V4 é open-source?

Sim, o V4 está disponível como modelo open-source para deployment local via Ollama, LM Studio e outras plataformas de inferência. Também disponível via API oficial e NVIDIA NIM.

Qual é a diferença entre DeepSeek V4-Pro e V4-Flash?

V4-Pro tem 1,6 trilhão de parâmetros, contexto de 1M tokens e US$ 3,48/M tokens de saída — para tarefas complexas. V4-Flash tem 284B parâmetros, é mais rápido e custa US$ 0,28/M tokens de saída — para tarefas de alto volume onde velocidade e custo importam mais que raciocínio profundo.

Por que o DeepSeek V4 custa tão menos que os modelos americanos?

DeepSeek treinou o V4 com eficiência de infraestrutura superior — US$ 5,6M de custo total em 16.000 GPUs, dobrando a eficiência do próprio V3. Parte do custo mais baixo também reflete diferenças de custos operacionais na China. Mas o gap de preço é real e os benchmarks também.

Artigos Relacionados