A crença que organizava tudo era simples: modelo de qualidade custa caro. Era a narrativa que justificava pagar US$ 20, US$ 30, US$ 100 por mês para ter acesso ao “melhor”. Era o argumento implícito em cada lançamento das Big Techs — qualidade tem preço, e você não pode ter uma sem o outro.
O DeepSeek V4 acabou de colapsar essa narrativa com dados.
Quando um modelo a 1/7 do preço empata ou supera o mais caro em benchmarks de código, o critério “preço = qualidade” não é mais defensável. E as Big Techs sabem disso.
O que é o DeepSeek V4 — os dados reais
DeepSeek lançou preview do seu quarto modelo de geração com dois SKUs. O V4-Pro tem 1,6 trilhão de parâmetros, janela de contexto de 1 milhão de tokens e custa US$ 1,74 por milhão de tokens de entrada / US$ 3,48 por milhão de tokens de saída. O V4-Flash, versão mais rápida e enxuta (284B parâmetros), fica em US$ 0,14/M input e US$ 0,28/M output.
Para ter referência: Claude Opus 4.6 custa US$ 15/M input e US$ 75/M output. GPT-4o custa US$ 2,50/M input e US$ 10/M output. O V4-Pro, ao US$ 3,48/M output, entra na faixa do GPT-4o mas com performance que ultrapassa em benchmarks específicos.
O modelo foi treinado em 16.000 GPUs Hopper com custo total de US$ 5,6 milhões — dobrando a eficiência de treinamento do próprio V3. Open-source, disponível para deployment local ou via API no site oficial.
Os números que desafiam a narrativa de preço
No SWE-bench Verified — benchmark padrão para avaliação de modelos em tarefas reais de engenharia de software — o DeepSeek V4-Pro marcou 80,6%. Claude Opus 4.6 marcou 80,8%. Diferença de 0,2 pontos percentuais. O V4-Pro custa US$ 3,48/M tokens de saída. O Claude Opus custa US$ 75/M.
Em benchmarks de código, o V4-Pro supera o Claude:
- LiveCodeBench: 93,5% (DeepSeek V4-Pro) vs 88,8% (Claude Opus 4.6)
- Terminal-Bench 2.0: 67,9% vs 65,4%
- Codeforces Rating: 3.206 (nenhum score equivalente reportado pelo Claude)
Esses não são benchmarks sintéticos desenhados para favorecer um modelo. São métricas de tarefas de desenvolvimento real, verificadas por terceiros. E um modelo que custa frações de centavo por token os domina.
A narrativa que as Big Techs construíram — e como ela os beneficia
Há um motivo para a narrativa “qualidade custa caro” ter sido tão eficaz durante tanto tempo. Ela não é apenas marketing — é uma convicção sincera de quem estava acostumado a que infraestrutura cara implicasse resultado superior.
Mas há um interesse claro das Big Techs em manter essa crença viva. Quando o praticante acredita que o modelo mais barato é necessariamente pior, ele continua pagando premium. Quando ele questiona isso e começa a comparar por resultado real de negócio, a premium se torna difícil de justificar.
A questão não é que as empresas estejam mentindo sobre qualidade. É que elas enfatizam diferenças de performance em contextos onde a diferença não importa para a maioria dos casos de uso reais. 0,2% de diferença no SWE-bench é irrelevante para 95% das tarefas que o praticante roda. O custo 20x mais alto não é.
Isso é o que as Big Techs preferem que você não calcule.
O que muda no seu critério de escolha de modelo
Antes do DeepSeek V4, a heurística funcional era: se preciso de qualidade máxima, pago o premium. Essa heurística tinha sentido quando havia uma lacuna real de performance que justificava o preço.
Com V4-Pro em empate técnico e V4-Flash com US$ 0,14/M tokens, o critério muda:
- Para tarefas de código: DeepSeek V4-Pro supera Claude em benchmarks relevantes a 1/21 do preço de saída
- Para tarefas de análise e raciocínio: Gap ainda existe com modelos frontier mais recentes (GPT-5.4, Gemini 3.1 Pro) — de 3 a 6 meses de defasagem
- Para prototipar e iterar: V4-Flash a US$ 0,14/M torna iteração agressiva economicamente viável sem precedente
- Para casos sensíveis a dados: Open-source com deployment local elimina dependência de API
O critério que permanece relevante: qual é a tarefa específica? Não existe mais “o melhor modelo” — existe o modelo mais adequado para o caso de uso, no trade-off certo de custo e latência.
Como usar o DeepSeek V4 hoje
O V4 está disponível em preview via API pública e como modelo open-source para deployment local. Formas de acesso:
- API oficial: api.deepseek.com — mesma interface OpenAI-compatível, chave API via painel
- Via OpenRouter: roteamento automático com fallback, pronto para integrar no mesmo código que usa Claude ou GPT
- Local via Ollama ou LM Studio: modelo open-source, roda localmente, zero custo por token após setup
- Via NVIDIA NIM: disponível no catálogo gratuito de modelos do NIM, sem necessidade de chave DeepSeek
Estratégia prática: use V4-Flash para tarefas de alta volume (summarização, extração, classificação), V4-Pro para tarefas de código e raciocínio complexo. Reserve modelos frontier mais caros para os casos onde os benchmarks mostram diferença real — principalmente raciocínio de conhecimento geral e tarefas ambíguas sem critério objetivo.
Como discuti ao analisar o que muda quando modelos viram commodity, a gratuidade e o baixo custo não resolvem o problema de método. Mas eles eliminam o custo como argumento para não experimentar com disciplina.
E para entender por que mesmo com ferramentas melhores e mais baratas muitos praticantes continuam sem resultado, vale ler sobre o loop de lançamentos que fabrica ansiedade — o V4 vai ter um V5, e o ciclo recomeça.
Leia também
- 100 modelos de IA de graça: o que muda quando ferramenta vira commodity
- O loop de lançamentos de IA está fabricando a sua ansiedade
- GPT-5.5 chegou — mas você ainda não tem o que falta
Perguntas frequentes
O DeepSeek V4 é realmente comparável ao Claude e GPT?
Em benchmarks de código (SWE-bench, LiveCodeBench), sim — o V4-Pro empata ou supera o Claude Opus 4.6. Em tarefas de raciocínio geral e conhecimento, ainda existe uma defasagem de 3-6 meses em relação aos modelos frontier mais recentes como GPT-5.4 e Gemini 3.1 Pro.
Vale a pena trocar meu modelo atual pelo DeepSeek V4?
Depende da tarefa. Para código e raciocínio técnico, V4-Pro é candidato real ao custo de 1/21 do Claude Opus. Para tarefas de raciocínio geral complexo e ambíguo, o gap de performance pode justificar o premium. O critério deve ser medição por resultado concreto, não heurística de preço.
O DeepSeek V4 é open-source?
Sim, o V4 está disponível como modelo open-source para deployment local via Ollama, LM Studio e outras plataformas de inferência. Também disponível via API oficial e NVIDIA NIM.
Qual é a diferença entre DeepSeek V4-Pro e V4-Flash?
V4-Pro tem 1,6 trilhão de parâmetros, contexto de 1M tokens e US$ 3,48/M tokens de saída — para tarefas complexas. V4-Flash tem 284B parâmetros, é mais rápido e custa US$ 0,28/M tokens de saída — para tarefas de alto volume onde velocidade e custo importam mais que raciocínio profundo.
Por que o DeepSeek V4 custa tão menos que os modelos americanos?
DeepSeek treinou o V4 com eficiência de infraestrutura superior — US$ 5,6M de custo total em 16.000 GPUs, dobrando a eficiência do próprio V3. Parte do custo mais baixo também reflete diferenças de custos operacionais na China. Mas o gap de preço é real e os benchmarks também.




