POR QUE DEEPSEEK É UMA M*

00:15:09
https://www.youtube.com/watch?v=xgIiiSL7voM

Resumo

TLDRDeepSeek é um novo modelo generativo de linguagem grande desenvolvido por um laboratório chinês que promete competir com a OpenAI. O vídeo explora a eficiência desse modelo, que é open source e possibilita um uso mais acessível em hardware comum, ao mesmo tempo que analisa o impacto nas empresas de tecnologia, especialmente na NVIDIA. As ações da NVIDIA estão em queda, pois o mercado questiona a necessidade de seus chips frente à eficiência do DeepSeek. Apesar do hype, o DeepSeek não desbanca a OpenAI, sendo apenas mais eficiente em algumas métricas específicas.

Conclusões

  • 🚀 DeepSeek é um novo modelo de linguagem grande criado na China.
  • 📉 Ações da NVIDIA caíram devido à eficiência do DeepSeek.
  • 🛠️ DeepSeek é open source e permite uso em hardware doméstico.
  • ⚖️ DeepSeek é comparável ao OpenAI O1, mas não ao O3.
  • 🔄 Modelos destilados do DeepSeek são mais acessíveis para uso pessoal.
  • 💰 Custo do treinamento do DeepSeek foi significativamente menor que o da OpenAI.
  • 🔍 DeepSeek apresenta uma forma de raciocínio em suas respostas.
  • 🖥️ A execução do DeepSeek exige alta capacidade de memória.
  • 📊 O impacto do DeepSeek no mercado financeiro está gerando incertezas.
  • 🌐 Analisar as implicações políticas e tecnológicas entre China e EUA.

Linha do tempo

  • 00:00:00 - 00:05:00

    O vídeo introduz o DeepSeek, um modelo generativo de linguagem grande criado por um laboratório chinês. O apresentador discute a rivalidade entre Estados Unidos e China na tecnologia de inteligência artificial, ressalta que o DeepSeek não superou a OpenAI, mas é comparável ao modelo O1, mencionando que a OpenAI tem um modelo mais avançado, o O3. Embora o DeepSeek tenha boas performances, é importante não exagerar as expectativas e entender que ele ainda não desbancou a OpenAI em termos de poder.

  • 00:05:00 - 00:10:00

    O DeepSeek é um modelo de código aberto, com a possibilidade de treinar em hardware próprio, embora exija uma memória gráfica substancial. O apresentador explica que versões destiladas do modelo podem ser utilizadas em máquinas menos potentes. Existe a versatilidade da implementação off-line, reduzindo custos com tokens da OpenAI. Além disso, o DeepSeek permite um processo de raciocínio mais claro durante a elaboração das respostas, o que fornece uma nova abordagem para o uso da IA na prática.

  • 00:10:00 - 00:15:09

    As ações da NVIDIA caíram devido à eficiência do treinamento do DeepSeek, que pode ser realizado com menor custo em comparação aos modelos da OpenAI. O modelo DeepSeek foi estimado em 6 milhões de dólares para treinar, em contraste com 100 milhões da OpenAI. Apesar dessa pressão no mercado acionário, o DeepSeek depende de chips da NVIDIA para seu treinamento. O apresentador destaca que o DeepSeek não é mais inteligente, mas otimiza o processo de resposta, sugerindo que a verdadeira inovação reside em como executa a lógica e a apresentação do raciocínio.

Mapa mental

Vídeo de perguntas e respostas

  • O que é o DeepSeek?

    DeepSeek é um modelo generativo de linguagem grande (LLM) desenvolvido por um laboratório chinês, com capacidades de raciocínio comparáveis ao modelo OpenAI O1.

  • Por que as ações da NVIDIA estão caindo?

    As ações da NVIDIA estão caindo devido à descoberta do DeepSeek ser mais eficiente em treinamento de modelos, levando investidores a questionarem a necessidade de chips da NVIDIA.

  • DeepSeek é de código aberto?

    Sim, DeepSeek é um modelo open source que permite que desenvolvedores treinem em seus próprios hardwares, embora requer altos requisitos técnicos.

  • Como DeepSeek se compara ao OpenAI O3?

    DeepSeek é comparável ao OpenAI O1, mas não ao O3, que é o modelo mais poderoso da OpenAI.

  • Quais são as vantagens do DeepSeek?

    As vantagens incluem ser open source, permitir treinamento mais eficiente em máquinas domésticas e ter versões destiladas que são mais fáceis de rodar.

  • DeepSeek pode ser executado em hardware comum?

    O modelo completo do DeepSeek requer 670GB de memória de vídeo, tornando-o difícil de rodar em hardware comum, mas possui versões destiladas que são mais acessíveis.

  • Qual o custo estimado para treinar o modelo DeepSeek?

    O custo estimado para o treinamento do modelo DeepSeek foi de cerca de 6 milhões de dólares, muito abaixo dos 100 milhões gastos pela OpenAI.

  • DeepSeek oferece raciocínio?

    Sim, o DeepSeek apresenta uma forma de raciocínio ao refinar suas respostas, mas não é mais inteligente que outros modelos.

  • O que significa 'modelos destilados' ao falar do DeepSeek?

    Modelos destilados são versões simplificadas e menos poderosas do modelo original, treinadas com seus parâmetros, permitindo uso em hardware menos potente.

  • DeepSeek pode substituir modelos da OpenAI?

    Não, DeepSeek não substitui os modelos da OpenAI, mas se torna uma alternativa viável para certas aplicações.

Ver mais resumos de vídeos

Obtenha acesso instantâneo a resumos gratuitos de vídeos do YouTube com tecnologia de IA!
Legendas
pt
Rolagem automática:
  • 00:00:00
    Você está em 2025 e você não para de escutar  a seguinte palavra DeepSeek. O que é isso? O
  • 00:00:05
    que é esse modelo? O que tem a ver com a  OpenAI? Por que as ações da NVIDIA estão
  • 00:00:11
    caindo? E se você deveria aprender o DeepSeek e  investir tempo nisso? Aqui a gente vai explorar
  • 00:00:16
    alguns detalhes que ainda não chegam numa  profundidade técnica o suficiente ao ponto
  • 00:00:20
    de ler o DeepSeek Paper e entender de ponta a  ponta, mas isso já vai ser o suficiente para
  • 00:00:25
    você entender se vale a pena ou não seguir esse  modelo e o porquê o mercado anda respondendo
  • 00:00:30
    dessa forma. Beleza? Então o objetivo aqui,  como eu disse, não é ser exatamente técnico
  • 00:00:34
    e sim seguir os pontos mais importantes  para que você tenha uma visão global,
  • 00:00:38
    uma visão do todo, para saber, enfim, se  você deve mergulhar de cabeça nisso ou não.
  • 00:00:43
    E explicar o motivo desse rebuliço  e fazer você entender todo o hype,
  • 00:00:47
    beleza? Principalmente na parte  de tecnologias e finanças,
  • 00:00:50
    já que isso está diretamente correlacionado com  a NVIDIA e principalmente com os seus preços das
  • 00:00:55
    ações. Mas o que é o DeepSeek? O DeepSeek R1  é um modelo generativo de linguagem grande,
  • 00:01:00
    ou Large Language Model, criado por um  laboratório chinês chamado DeepSeek. Então
  • 00:01:06
    temos aqui um cenário onde os Estados Unidos  têm uma dominância total sobre a inteligência
  • 00:01:12
    artificial com suas empresas americanas, como  por exemplo a OpenAI, e agora surge num cenário
  • 00:01:18
    um laboratório chinês que teoricamente  está competindo com os Estados Unidos.
  • 00:01:22
    É aquela famosa guerra, aquela famosa briga  China-Estados Unidos, China-Rússia, enfim, todo
  • 00:01:28
    esse bloco político. Mas a gente não vai ficar se  atentando só essa parte, porque ele é um modelo
  • 00:01:34
    com capacidade de raciocínio, e o raciocínio  está listado aqui de amarelo, porque sim,
  • 00:01:40
    ele teoricamente pensa, e ele está comparável com  o modelo da OpenAI O1, que é o modelo que a gente
  • 00:01:46
    costuma utilizar no nosso dia a dia. E no próprio  gráfico aqui, de comparativo que o DeepSeek soltou
  • 00:01:54
    nós temos então aqui o DeepSeek em azul e em cinza  temos aqui o modelo OpenAI O1 nessa build 12.17
  • 00:02:01
    então você pode ver aqui de uma forma bem  simplista ainda que a barra hachurada está
  • 00:02:08
    muito próximo de todas as barras que são as  barras cinzas Então, por que o DeepSeek está
  • 00:02:14
    dando um banho de performance no OpenAI  ON? Só que, uma coisa muito importante
  • 00:02:21
    que a gente precisa entender, já pra gente não  ficar tão emocionado com esse hype tecnológico,
  • 00:02:27
    é que o modelo da DeepSeek R1 é comparável com  o modelo O1 da OpenAI, mas isso não é o modelo
  • 00:02:35
    mais poderoso da OpenAI, o modelo mais poderoso  da OpenAI é o O3, portanto a gente já começa a
  • 00:02:41
    desbancar um hype que não é culpa do DeepSeek,  é culpa do entendimento de toda essa informação,
  • 00:02:47
    mas claro, é conveniente a eles, por isso  eles não comentam nada a respeito. mas que
  • 00:02:52
    eles não desbancaram a OpenAI, e sim chegaram  no nível de compatibilidade de resposta desse
  • 00:02:58
    modelo para aqueles testes específicos. Se  você é da área de programação, você já está
  • 00:03:03
    cansado de ver eventualmente alguns testes de  performance em que eles comparam C com Python.
  • 00:03:09
    Daí você vai olhar o comparativo, o  cara conseguiu fazer, por exemplo,
  • 00:03:13
    o Python ultrapassar em performance o C, colocando  um loop em um comando muito específico. Mas que
  • 00:03:20
    quando a gente olha no contexto geral, o C  ainda é um pouco mais performático do que
  • 00:03:26
    o Python. Isso é só um exemplo, já que eu não  quero entrar muito nessa trade de performance.
  • 00:03:30
    Só que o modelo mais poderoso da OpenAI é  a OpenAI O3. Então a China não desbancou
  • 00:03:36
    os Estados Unidos, apenas fizeram o value  mais eficiente, o que já é, com certeza,
  • 00:03:41
    um mérito incrível. mas que não serve para você  ficar assim tão emocionado quanto o mercado,
  • 00:03:48
    beleza? E quais são as vantagens da DeepSeek?  Primeiro é que pela primeira vez temos de ponta a
  • 00:03:55
    ponta um modelo de LLM que ele é Open Source, Não  adianta nada você colocar o seu código disponível,
  • 00:04:01
    o código aberto, no GitHub, que é o que  deveria ser todos os modelos da OpenAI.
  • 00:04:07
    Mas eles também liberaram, teoricamente, todos  os pesos e parâmetros de treinamento. Isso
  • 00:04:13
    significa que se você pegar o código que está  no GitHub, que seria do modelo R1 do DeepSeek,
  • 00:04:20
    e colocar todos os pesos, você pode treinar  no seu hardware. O que abre precedente, então,
  • 00:04:25
    pra que mais e mais empresas agora,  teoricamente de fundo de quintal,
  • 00:04:30
    sem ter todos os milhões de inovação que a OpenAI  e todas as empresas que vêm abaixo dela tem,
  • 00:04:36
    agora eles podem rodar, literalmente, nos  seus computadores caseiros com placas NVIDIA.
  • 00:04:41
    que você teoricamente também poderia fazer  rodando na sua casa. Só que você precisa
  • 00:04:46
    entender que o R1, o próprio modelo R1 que está  lá disponível, ele precisa de 670GB de memória de
  • 00:04:54
    placa de vídeo só pra ele carregar, porque  é exatamente essa quantidade de parâmetros
  • 00:04:59
    que ele tem para ele rodar. Então isso  significa que apesar de a gente ficar
  • 00:05:05
    aqui ainda todo emocionado de código  aberto, disso, aquilo, você não.
  • 00:05:09
    Você não consegue rodar porque você não tem essa  quantidade de giga de memória RAM na sua placa,
  • 00:05:14
    sequer você tem uma placa. A minha aqui é uma  placa RTX 3050, a mais básica que tem, então
  • 00:05:20
    não adianta que você não vai fazer o download. do  Hugging Face, que você vai conseguir rodar ele,
  • 00:05:25
    então aqui também a gente já desbanca uma  questão que estamos vendo de pessoas rodarem
  • 00:05:31
    o DeepSeek em Raspberry Pi, que são aqueles  computadores do tamanho de um cartão de crédito.
  • 00:05:36
    Só que também, pela graça do Open Source,  nós temos versões Distilled, que significam
  • 00:05:42
    que são versões menos poderosas porque elas são  treinadas com os parâmetros do modelo original,
  • 00:05:47
    fazendo basicamente a IA original treinando com  os seus parâmetros o modelo um pouco mais simples.
  • 00:05:54
    E aqui, na própria página do DeepSeek, nós temos  aqui alguns modelos que foram criados, ou melhor,
  • 00:05:59
    treinados em cima do Oyama, do Quinn, e que  eles podem ser rodados sim na sua máquina,
  • 00:06:05
    em que eles são modelos teoricamente menos  poderosos, mas ainda assim muito úteis. E se
  • 00:06:12
    você pegar aqui, por exemplo, um dos softwares  que eu tenho aqui para rodar esses modelos,
  • 00:06:17
    que é chamado de LM Studio, você baixa aqui  o modelo de Psycrion, de Steel e Yama, ou da
  • 00:06:23
    sua preferência, e você pode começar a interagir  aqui com o modelo totalmente carregado offline,
  • 00:06:28
    ou seja, o seu próprio hardware em que  você carrega a partir da sua memória RAM.
  • 00:06:32
    Então, se a gente fizer um teste aqui, eu vou,  por exemplo, colocar aqui uma pergunta. Quais
  • 00:06:36
    os benefícios para a saúde de um homem  de 40 anos praticando exercícios físicos,
  • 00:06:50
    especificamente a corrida de maratona?  Coloquei qualquer coisa aqui, beleza?
  • 00:06:57
    Então você vai ver que ele vai começar  a rodar. Claro que o meu computador é
  • 00:07:00
    um computador um pouco mais modesto, mas você  já começa a entender algumas vantagens aqui.
  • 00:07:05
    Primeiro que você não precisa ficar  agora mais pagando tokens para o OpenAI
  • 00:07:08
    e você pode utilizar ele offline  na sua própria máquina. E ainda,
  • 00:07:12
    aqui você começa a perceber alguns vieses de  inovação, e porque eu chamo de viés de inovação,
  • 00:07:18
    Porque uma das coisas que o DeepSeek fez  é deixar um pouco mais claro qual que é o
  • 00:07:23
    modelo de raciocínio que ele tá fazendo. Mas não,  isso daqui não é inteligente e não é raciocínio.
  • 00:07:29
    Isso daqui é uma forma de refinamento  da resposta antes dele conseguir dar a
  • 00:07:34
    resposta definitiva pra você. Então  veja aqui, sim, ele está pensando,
  • 00:07:38
    deixando isso daqui muito mais claro.  Mas isso daqui já é muito legal,
  • 00:07:42
    porque ele já vai refinar a sua resposta e  deixar a sua resposta muito mais próxima.
  • 00:07:47
    o que é muito mais interessante do que  a gente ter que colocar a resposta,
  • 00:07:51
    por exemplo, do OpenAI e pedir para ele fazer  isso. Porque, sim, existe essa técnica de
  • 00:07:56
    prompt engineer em que você pede a resposta,  ele elabora a resposta e você coloca mais um
  • 00:08:02
    prompt na sequência. Então, digamos assim,  que o DeepSeek já faz isso naturalmente,
  • 00:08:07
    o que já corta um bom trabalho da gente  que trabalha com inteligência artificial.
  • 00:08:11
    Então, terminado os seus raciocínios,  ou melhor, os seus pensamentos, então,
  • 00:08:16
    com base nisso, ele começa a elaborar  alguma coisa nesse sentido, beleza? Então,
  • 00:08:21
    se você também quiser rodar uma versão destilada  do DeepSeek, basta você entrar no site lmstudio.ie
  • 00:08:29
    e baixar a versão dele. Eu  mesmo tenho aqui, como você viu.
  • 00:08:34
    mas vamos olhar aqui alguns motivos do RAI então  a gente pode afirmar que o DeepSeek não abriu o
  • 00:08:42
    modelo da OpenAI e nem se tornou o melhor  ele se tornou compatível em alguns testes
  • 00:08:47
    e alguns benchmarks porque a grande vantagem  do DeepSeek então ele se tornou mais eficiente
  • 00:08:54
    em treinar modelos porque treinar IA é a  parte mais cara e pesada de um modelo no
  • 00:09:00
    geral a gente acredita que para fazer IA cada  vez maiores e melhores a gente precisava cada
  • 00:09:05
    vez mais de chips o que impulsionou bastante o  preço da NVIDIA a subir nos últimos anos então
  • 00:09:10
    se a gente poder Se a gente dá uma olhada  aqui nos preços das ações no próprio Google,
  • 00:09:15
    a gente vai ver que no último ano a NVIDIA, por  exemplo, o preço das suas ações subiram 133% em
  • 00:09:23
    preço em real. Só que por ser muito eficiente  no seu treinamento, e você precisa dar um pouco
  • 00:09:28
    mais de olhada, de ênfase técnica no paper,  todo o mercado de investidores se perguntaram
  • 00:09:34
    Por que então deveríamos utilizar o chip da  NVIDIA, já que agora temos o tal do DeepSeek,
  • 00:09:39
    que chega em valores muito próximos da OpenAI,  e eu estou colocando todo esse dinheiro. Então,
  • 00:09:44
    pelo mercado de ações, que é um mercado muito  líquido, e eu posso vender minhas ações no
  • 00:09:49
    momento em que o mercado está aberto e recuperar  o meu dinheiro, as ações da NVIDIA nos últimos
  • 00:09:54
    cinco dias despencaram 16%, dando vários  milhões de reais, teoricamente em prejuízo.
  • 00:10:00
    Só que isso significa o fim da NVIDIA?  Com certeza não, porque o DeepSeek muito
  • 00:10:05
    provavelmente foi treinado com chips da NVIDIA,  beleza? Então o custo computacional estimado
  • 00:10:10
    para o treinamento do modelo do DeepSeek dizem que  foram valores estimados de 6 milhões de dólares,
  • 00:10:17
    o que é uma fração do modelo gasto, do valor gasto  pela OpenAI que chega a beirar 100 milhões de
  • 00:10:25
    dólares. Só que a gente pode ver no artigo que  não temos aqui exatamente esse valor escrito,
  • 00:10:31
    muito menos nessa outra parte aqui do paper em  que ele fala que pode ser mais barato. De novo,
  • 00:10:37
    isso foi uma estimativa e por se falar  em China, a gente não pode, logicamente,
  • 00:10:42
    entender que é um modelo aberto  ou informações abertas de verdade.
  • 00:10:47
    Tanto que se você dá uma pesquisada por aí na  internet, O DeepSeek, lá o DeepSeek que foi
  • 00:10:52
    treinado, que é um modelo bem grandão,  que você pode acessar o site DeepSeek,
  • 00:10:56
    só digitar no Google DeepSeek, você vai entrar  no site deles, ele não dá umas respostas muito
  • 00:11:02
    precisas com relação à faixa. de tempo de  revolução na China então a gente pode ver
  • 00:11:08
    só que só por esse fato algumas coisas ali não  são tão open assim só que nós temos muitos mais
  • 00:11:14
    detalhes técnicos e que traz um mérito para esse  modelo como por exemplo o FP8 o DeepSeek para que
  • 00:11:22
    ele possa reduzir significativamente o espaço de  memória, o que ele fez? Em vez dele trabalhar,
  • 00:11:27
    por exemplo, com modelos da OpenAI com várias  casas na vírgula depois do zero, como por exemplo
  • 00:11:33
    32 casas, e esse custo de multiplicação e  operação com vetores que é o que o modelo
  • 00:11:39
    de O modelo de LLM faz por baixo do capu, ia falar  por baixo dos planos, mas não é exatamente isso,
  • 00:11:45
    por baixo do capu, é infinitamente menor, o  que diminui um pouco a precisão do modelo,
  • 00:11:51
    mas ainda assim deixa ele com as respostas muito  mais satisfatórias. Então isso significa que,
  • 00:11:56
    diminuindo a precisão do modelo, ele  diminui a quantidade de casas decimais
  • 00:12:00
    que ele precisa fazer a conta e é por isso um  dos motivos dele ser um pouco mais eficiente.
  • 00:12:05
    Ainda temos o seu respectivo paralelismo, que  ele pode aqui trabalhar com diversos modelos
  • 00:12:13
    aqui rodando teoricamente em paralelo. Ou  seja, ele pode diminuir um pouco mais a
  • 00:12:18
    carga computacional em cima de um dispositivo  específico. Temos ainda assim a destilação de
  • 00:12:24
    modelos o que permite você rodar isso numa  máquina ou até no próprio Raspberry Pi,
  • 00:12:31
    mas ainda sempre lembrando e sendo  bastante reticente com relação a isso,
  • 00:12:35
    em que você não está utilizando o modelo com a  sua capacidade total e as respostas podem variar.
  • 00:12:41
    Mas vamos combinar aqui, se você conseguir rodar  isso dentro do Raspberry Pi, que é um computador
  • 00:12:47
    do tamanho de um cartão de crédito, porque não  você conseguiria rodar isso dentro da sua VPS,
  • 00:12:52
    por exemplo, e deixar de gastar tokens e  pagar a OpenAI? É uma coisa que nos traz
  • 00:12:57
    e abre os olhos para a gente aqui que mexe com  a IA na prática. E o que significa raciocínio,
  • 00:13:04
    que foi aquilo que a gente viu? Significa  que o DeepSeek, ele pode agora, claro,
  • 00:13:09
    abordar problemas complexos, como a  toda LLM, como lógica, programação,
  • 00:13:14
    etc. Só que ele deixa isso um pouco mais  transparente, dando um pouco mais essa...
  • 00:13:19
    percepção em que ele está  raciocinando e também, claro,
  • 00:13:22
    ele utiliza esse raciocínio dele para refinar  a resposta. E não, ele não é mais inteligente,
  • 00:13:28
    ele só tem mais alguns passos de otimização  da sua resposta. O que não tira em nada o
  • 00:13:33
    mérito do DeepSeek, mas a gente não  precisa ficar tão emocionado assim.
  • 00:13:37
    É como o Fábio Akita disse no próprio vídeo  dele sobre LLMs, inteligência artificial,
  • 00:13:43
    recomendo você assistir ele no canal do YouTube,  em que ele fala que a nossa surpresa ou o que a
  • 00:13:50
    gente acha de mágica é inversamente proporcionar  o nosso conhecimento de tecnologia. Então,
  • 00:13:55
    se você é um programador, se você já viu a LLM  funcionando com alguma rede neural que funciona
  • 00:14:00
    desde a década de 60, muito provavelmente  quando você viu o DeepSeek ou a própria IA,
  • 00:14:05
    você falou, ah, beleza, é bacana,  tem todo o mérito tecnológico,
  • 00:14:10
    mas não é. responsável por cataclismos mundiais  e coisas do tipo, e não, a Skynet não chegou.
  • 00:14:16
    Apesar da gente ter que ficar sempre esperto  e atento porque essas tecnologias tendem a
  • 00:14:22
    substituir muitas outras profissões  como a gente já tem visto. E se você
  • 00:14:26
    quer acompanhar um pouco mais sobre  essa discussão, nós temos esse usuário,
  • 00:14:30
    esse link que eu vou deixar também aqui,  que foi o usuário do Twitter que postou
  • 00:14:37
    grande parte dessas informações e que eu  aconselho você seguir também. E se você
  • 00:14:42
    gostou dessa thread aqui que a gente conversou  do DeepSeek, você pode colocar mais informações.
  • 00:14:47
    E ao longo do tempo aqui, a gente vai instalar  o DeepSeek localmente e vai começar a utilizar
  • 00:14:53
    o DeepSeek na sua API destilada, colocando assim  mais utilidade e saindo um pouco mais do hype e
  • 00:15:00
    dando motivo para a gente poder economizar os  nossos tokens. Um forte abraço. Não esqueça de
  • 00:15:05
    me seguir, deixar os likes, deixar seus  comentários, positivos ou negativos.
Etiquetas
  • DeepSeek
  • OpenAI
  • NVIDIA
  • Inteligência Artificial
  • Modelo LLM
  • Códigos Abertos
  • Treinamento de Modelos
  • Tecnologia
  • Eficiência
  • Mercado Financeiro