Há rumores de que o DeepSeek V4 supera o ChatGPT e o Claude em codificação de contexto longo, visando tarefas de programação de nível avançado. Fontes internas afirmam que o cenário de IA do Vale do Silício deve se preocupar se os testes internos indicarem o desempenho esperado após o lançamento em meados de fevereiro.
A startup chinesa de IA, DeepSeek, planeja lançar o DeepSeek V4, seu mais recente modelo de linguagem de grande porte, em 17 de fevereiro. Fontes familiarizadas com o assunto afirmam que o modelo está prestes a superar modelos de linguagem de grande porte já existentes, como o ChatGPT da OpenAI e o Claude da Anthropic, no processamento de prompts e tarefas de código com contexto extenso.
Até o momento da publicação deste texto, a empresa chinesa não divulgou publicamente nenhuma informação sobre o lançamento iminente nem confirmou os rumores. Desenvolvedores em diversas redes sociais expressaram grande expectativa pelo lançamento. Yuchen Jin, desenvolvedor de IA e cofundador da Hyperbolic Labs, escreveu no X que "há rumores de que o DeepSeek V4 será lançado em breve, com uma tron que a do Claude e do GPT".
O subreddit r/DeepSeek também ficou agitado , com um usuário explicando que sua obsessão com o iminente modelo V4 do DeepSeek não era normal. O usuário disse que frequentemente “verifica notícias, possíveis rumores e até lê a documentação no site do DeepSeek para procurar quaisquer mudanças ou sinais que indiquem uma atualização”.
Os lançamentos anteriores da DeepSeek tiveram um impacto significativo nos mercados globais. A startup chinesa de IA lançou seu modelo de raciocínio R1 em janeiro de 2025, o que levou a uma venda de ações na casa dos trilhões de dólares. O lançamento igualou o modelo 01 da OpenAI em benchmarks de matemática e raciocínio, apesar de ter custado significativamente menos do que a startup americana de IA gastou em seu modelo 01.
A empresa chinesa teria gasto apenas US$ 6 milhões no lançamento do modelo. Enquanto isso, concorrentes globais gastam quase 70 vezes mais para obter o mesmo resultado. Seu modelo V3 também registrou uma pontuação de 90,2% no benchmark MATH-500, em comparação com os 78,3% do Claude. A atualização mais recente do DeepSeek para a versão V3 (V3.2 Speciale) aprimorou ainda mais sua produtividade.
O principal diferencial do modelo V4 evoluiu da ênfase do V3 em raciocínio puro, provas formais e matemática lógica. Espera-se que a nova versão seja um modelo híbrido que combine tarefas de raciocínio e não raciocínio. O modelo visa conquistar o mercado de desenvolvedores, preenchendo uma lacuna existente que exige alta precisão e geração de código de contexto extenso.
O Claude Opus 4.5 atualmente detém a liderança no benchmark SWE, alcançando uma precisão de 80,9%. A versão 4 precisa superar esse resultado para destronar o Claude Opus 4.5. Com base em sucessos anteriores, o novo modelo pode ultrapassar esse limite e conquistar a liderança no benchmark.
O sucesso da DeepSeek deixou muitos profissionais profundamente incrédulos. Como uma empresa tão pequena conseguiu alcançar tais marcos? O segredo pode estar profundamente enraizado em seu artigo de pesquisa publicado em 1º de janeiro. A empresa dent um novo método de treinamento que permite aos desenvolvedores escalar facilmente grandes modelos de linguagem. Liang Wenfeng, fundador e CEO da DeepSeek, escreveu na pesquisa que a empresa está usando Hiperconexões com Restrição de Variedade (mHC) para treinar seus modelos de IA.
O executivo propôs o uso do mHC para solucionar os problemas encontrados quando os desenvolvedores treinam grandes modelos de linguagem. Segundo Wenfeng, o mHC é uma evolução do Hyper-Connections (HC), uma estrutura que outros desenvolvedores de IA usam para treinar seus grandes modelos de linguagem. Ele explicou que o HC e outras arquiteturas tradicionais de IA forçam todos os dados a passar por um único canal estreito. Já o mHC amplia esse caminho para múltiplos canais, facilitando a transferência de dados e informações sem causar colapso no treinamento.
Lian Jye Su, analista-chefe da Omdia, elogiou o CEO Wenfeng pela publicação da pesquisa. Su enfatizou que a decisão da DeepSeek de divulgar seus métodos de treinamento demonstra uma renovada confiança no setor de IA chinês. A DeepSeek tem dominado o mercado mundial em desenvolvimento. A Microsoft publicou um relatório na quinta-feira, mostrando que a DeepSeek detém 89% do mercado de IA da China e vem ganhando força em países em desenvolvimento.
Se você está lendo isso, já está na frente. Acompanhe nossa newsletter .