Selecione o idioma

Portuguese

Down Icon

Selecione o país

America

Down Icon

Repensando a IA: o manual do DeepSeek abala o paradigma de alto gasto e alta computação

Repensando a IA: o manual do DeepSeek abala o paradigma de alto gasto e alta computação

Participe do evento que conta com a confiança de líderes empresariais há quase duas décadas. O VB Transform reúne as pessoas que constroem estratégias reais de IA empresarial. Saiba mais

Quando a DeepSeek lançou seu modelo R1 em janeiro , não foi apenas mais um anúncio de IA. Foi um momento decisivo que abalou a indústria de tecnologia, forçando os líderes do setor a reconsiderar suas abordagens fundamentais para o desenvolvimento de IA.

O que torna a conquista da DeepSeek notável não é o fato de a empresa ter desenvolvido novas capacidades; mas sim como alcançou resultados comparáveis ​​aos entregues por pesos pesados ​​da tecnologia a uma fração do custo. Na realidade, a DeepSeek não fez nada que já não tivesse sido feito antes; sua inovação resultou da busca por prioridades diferentes. Como resultado, agora vivenciamos um desenvolvimento acelerado em duas vertentes paralelas: eficiência e computação.

À medida que a DeepSeek se prepara para lançar seu modelo R2 e enfrenta simultaneamente a possibilidade de restrições ainda maiores sobre chips nos EUA, é importante analisar como ela capturou tanta atenção.

A chegada da DeepSeek, por mais repentina e dramática que tenha sido, cativou a todos nós, pois demonstrou a capacidade da inovação de prosperar mesmo sob restrições significativas. Diante dos controles de exportação dos EUA que limitavam o acesso a chips de IA de ponta, a DeepSeek foi forçada a encontrar caminhos alternativos para o avanço da IA.

Enquanto as empresas americanas buscavam ganhos de desempenho por meio de hardware mais potente, modelos maiores e dados de melhor qualidade, a DeepSeek se concentrou em otimizar o que estava disponível. Implementou ideias conhecidas com execução notável — e há inovação em executar o que já é conhecido e fazê-lo bem.

Essa mentalidade de eficiência em primeiro lugar produziu resultados incrivelmente impressionantes. O modelo R1 da DeepSeek supostamente corresponde às capacidades da OpenAI com apenas 5 a 10% do custo operacional. Segundo relatos, o treinamento final para o antecessor V3 da DeepSeek custou apenas US$ 6 milhões — o que foi descrito pelo ex-cientista de IA da Tesla, Andrej Karpathy, como "um orçamento ridículo" em comparação com as dezenas ou centenas de milhões gastos por concorrentes americanos. Mais impressionante ainda, enquanto a OpenAI supostamente gastou US$ 500 milhões treinando seu recente modelo "Orion", a DeepSeek alcançou resultados de benchmark superiores com apenas US$ 5,6 milhões — menos de 1,2% do investimento da OpenAI.

Se você se iludiu acreditando que esses resultados incríveis foram alcançados mesmo com a DeepSeek em grave desvantagem devido à sua incapacidade de acessar chips avançados de IA, lamento dizer, mas essa narrativa não é totalmente precisa (embora seja uma boa história). Os controles iniciais de exportação dos EUA se concentraram principalmente em capacidades computacionais, não em memória e rede — dois componentes cruciais para o desenvolvimento da IA.

Isso significa que os chips aos quais a DeepSeek teve acesso não eram chips de baixa qualidade; suas capacidades de rede e memória permitiram que a DeepSeek paralelizasse operações em muitas unidades, uma estratégia fundamental para executar seu grande modelo com eficiência.

Isso, combinado com o impulso nacional da China para controlar toda a infraestrutura vertical de IA, resultou em uma inovação acelerada que muitos observadores ocidentais não previram. Os avanços do DeepSeek foram uma parte inevitável do desenvolvimento da IA, mas anteciparam avanços conhecidos alguns anos antes do que seria possível de outra forma, e isso é incrível.

Além da otimização de hardware , a abordagem da DeepSeek para dados de treinamento representa outro distanciamento das práticas ocidentais convencionais. Em vez de depender exclusivamente de conteúdo extraído da web, a DeepSeek supostamente aproveitou quantidades significativas de dados sintéticos e resultados de outros modelos proprietários. Este é um exemplo clássico de destilação de modelos, ou a capacidade de aprender com modelos realmente poderosos. Tal abordagem, no entanto, levanta questões sobre privacidade e governança de dados que podem preocupar clientes corporativos ocidentais. Ainda assim, ressalta o foco pragmático geral da DeepSeek em resultados em detrimento do processo.

O uso eficaz de dados sintéticos é um diferencial fundamental. Dados sintéticos podem ser muito eficazes no treinamento de modelos grandes, mas é preciso ter cuidado; algumas arquiteturas de modelo lidam melhor com dados sintéticos do que outras. Por exemplo, modelos baseados em transformadores com arquiteturas de mistura de especialistas (MoE), como o DeepSeek, tendem a ser mais robustos ao incorporar dados sintéticos, enquanto arquiteturas densas mais tradicionais, como as usadas nos primeiros modelos Llama, podem sofrer degradação de desempenho ou até mesmo "colapso do modelo" quando treinados com muito conteúdo sintético.

Essa sensibilidade arquitetônica é importante porque dados sintéticos introduzem padrões e distribuições diferentes em comparação com dados do mundo real. Quando uma arquitetura de modelo não lida bem com dados sintéticos, ela pode aprender atalhos ou vieses presentes no processo de geração de dados sintéticos, em vez de conhecimento generalizável. Isso pode levar à redução do desempenho em tarefas do mundo real, ao aumento de alucinações ou à fragilidade diante de situações novas.

Ainda assim, as equipes de engenharia da DeepSeek supostamente projetaram a arquitetura do modelo especificamente com a integração de dados sintéticos em mente desde os estágios iniciais do planejamento. Isso permitiu que a empresa aproveitasse os benefícios de custo dos dados sintéticos sem sacrificar o desempenho.

Por que tudo isso importa? Deixando de lado o mercado de ações, o surgimento da DeepSeek desencadeou mudanças estratégicas substanciais entre os líderes do setor.

Um exemplo: OpenAI. Sam Altman anunciou recentemente planos para lançar o primeiro modelo de linguagem "de peso aberto" da empresa desde 2019. Esta é uma mudança bastante notável para uma empresa que construiu seus negócios em sistemas proprietários. Parece que a ascensão da DeepSeek, somada ao sucesso da Llama, atingiu duramente a líder da OpenAI. Apenas um mês após a chegada da DeepSeek, Altman admitiu que a OpenAI estava "do lado errado da história" em relação à IA de código aberto .

Com a OpenAI supostamente gastando de US$ 7 a 8 bilhões anualmente em operações, a pressão econômica de alternativas eficientes como o DeepSeek tornou-se impossível de ignorar. Como disse sem rodeios o estudioso de IA Kai-Fu Lee: "Você está gastando de US$ 7 bilhões a US$ 8 bilhões por ano, gerando um prejuízo enorme, e aqui está um concorrente chegando com um modelo de código aberto gratuito." Isso exige mudanças.

Essa realidade econômica levou a OpenAI a buscar uma rodada de financiamento massiva de US$ 40 bilhões , que avaliou a empresa em um valor sem precedentes de US$ 300 bilhões. Mas mesmo com uma reserva de recursos à disposição, o desafio fundamental permanece: a abordagem da OpenAI exige muito mais recursos do que a da DeepSeek.

Outra tendência significativa acelerada pelo DeepSeek é a mudança para a "computação em tempo de teste" (TTC). Como os principais laboratórios de IA já treinaram seus modelos com grande parte dos dados públicos disponíveis na internet, a escassez de dados está retardando novas melhorias no pré-treinamento.

Para contornar isso, a DeepSeek anunciou uma colaboração com a Universidade Tsinghua para permitir o "ajuste crítico baseado em princípios próprios" (SPCT). Essa abordagem treina a IA para desenvolver suas próprias regras de julgamento de conteúdo e, em seguida, usa essas regras para fornecer críticas detalhadas. O sistema inclui um "juiz" integrado que avalia as respostas da IA ​​em tempo real, comparando-as com as regras básicas e os padrões de qualidade.

O desenvolvimento faz parte de um movimento em direção à autoavaliação autônoma e ao aprimoramento de sistemas de IA, nos quais os modelos utilizam o tempo de inferência para aprimorar os resultados, em vez de simplesmente torná-los maiores durante o treinamento. A DeepSeek chama seu sistema de "DeepSeek-GRM" (modelagem generalista de recompensa). Mas, assim como sua abordagem de destilação de modelos, isso pode ser considerado uma mistura de promessa e risco.

Por exemplo, se a IA desenvolver seus próprios critérios de julgamento, há o risco de que esses princípios diverjam dos valores humanos, da ética ou do contexto. As regras podem acabar sendo excessivamente rígidas ou tendenciosas, otimizando o estilo em detrimento da substância e/ou reforçando suposições ou alucinações incorretas. Além disso, sem um humano envolvido, podem surgir problemas se o "juiz" for falho ou desalinhado. É um tipo de IA falando sozinha, sem uma base externa sólida. Além disso, usuários e desenvolvedores podem não entender por que a IA chegou a uma determinada conclusão — o que alimenta uma preocupação maior: uma IA deve ter permissão para decidir o que é "bom" ou "correto" com base apenas em sua própria lógica? Esses riscos não devem ser descartados.

Ao mesmo tempo, essa abordagem está ganhando força, pois novamente o DeepSeek se baseia no trabalho de outros (pense nos métodos de "crítica e revisão" da OpenAI, na IA constitucional da Anthropic ou na pesquisa sobre agentes autorrecompensadores) para criar o que provavelmente é a primeira aplicação full-stack do SPCT em um esforço comercial.

Isso pode marcar uma mudança significativa na autonomia da IA, mas ainda há necessidade de auditoria rigorosa, transparência e salvaguardas. Não se trata apenas de modelos mais inteligentes, mas também de que permaneçam alinhados, interpretáveis ​​e confiáveis ​​à medida que começam a se autocriticar sem barreiras humanas.

Portanto, levando tudo isso em consideração, a ascensão do DeepSeek sinaliza uma mudança mais ampla na indústria de IA em direção a trilhas paralelas de inovação. Enquanto as empresas continuam construindo clusters computacionais mais poderosos para recursos de próxima geração, também haverá foco intenso em buscar ganhos de eficiência por meio de engenharia de software e melhorias na arquitetura de modelos para compensar os desafios do consumo de energia da IA, que supera em muito a capacidade de geração de energia.

As empresas estão atentas. A Microsoft, por exemplo, interrompeu o desenvolvimento de data centers em diversas regiões do mundo, recalibrando-se para uma abordagem de infraestrutura mais distribuída e eficiente. Embora ainda planeje investir aproximadamente US$ 80 bilhões em infraestrutura de IA neste ano fiscal, a empresa está realocando recursos em resposta aos ganhos de eficiência que a DeepSeek introduziu no mercado.

A Meta também respondeu, lançando sua mais recente família de modelos Llama 4, marcando a primeira vez que utiliza a arquitetura MoE. A Meta incluiu especificamente os modelos DeepSeek em suas comparações de benchmark ao lançar o Llama 4, embora os resultados detalhados de desempenho comparando os dois não tenham sido divulgados publicamente. Esse posicionamento competitivo direto sinaliza a mudança no cenário, onde os modelos de IA chineses (nos quais o Alibaba também está investindo) agora são considerados dignos de benchmark por empresas do Vale do Silício.

Com tanta movimentação em tão pouco tempo, torna-se um tanto irônico que as sanções dos EUA, projetadas para manter o domínio da IA ​​americana, possam ter acelerado a própria inovação que buscavam conter. Ao restringir o acesso a materiais, a DeepSeek foi forçada a abrir um novo caminho.

No futuro, à medida que o setor continua a evoluir globalmente, a adaptabilidade de todos os participantes será fundamental. Políticas, pessoas e reações do mercado continuarão a mudar as regras básicas — seja a eliminação da regra de difusão da IA , uma nova proibição de compras de tecnologia ou algo completamente diferente. Vale a pena observar o que aprendemos uns com os outros e como respondemos.

Jae Lee é CEO e cofundador da TwelveLabs .

Insights diários sobre casos de uso de negócios com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais newsletters do VB aqui .

Ocorreu um erro.

venturebeat

venturebeat

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow