POR QUE DEEPSEEK É UMA M*

00:15:09
https://www.youtube.com/watch?v=xgIiiSL7voM

概要

TLDRDeepSeek é um novo modelo generativo de linguagem grande desenvolvido por um laboratório chinês que promete competir com a OpenAI. O vídeo explora a eficiência desse modelo, que é open source e possibilita um uso mais acessível em hardware comum, ao mesmo tempo que analisa o impacto nas empresas de tecnologia, especialmente na NVIDIA. As ações da NVIDIA estão em queda, pois o mercado questiona a necessidade de seus chips frente à eficiência do DeepSeek. Apesar do hype, o DeepSeek não desbanca a OpenAI, sendo apenas mais eficiente em algumas métricas específicas.

収穫

  • 🚀 DeepSeek é um novo modelo de linguagem grande criado na China.
  • 📉 Ações da NVIDIA caíram devido à eficiência do DeepSeek.
  • 🛠️ DeepSeek é open source e permite uso em hardware doméstico.
  • ⚖️ DeepSeek é comparável ao OpenAI O1, mas não ao O3.
  • 🔄 Modelos destilados do DeepSeek são mais acessíveis para uso pessoal.
  • 💰 Custo do treinamento do DeepSeek foi significativamente menor que o da OpenAI.
  • 🔍 DeepSeek apresenta uma forma de raciocínio em suas respostas.
  • 🖥️ A execução do DeepSeek exige alta capacidade de memória.
  • 📊 O impacto do DeepSeek no mercado financeiro está gerando incertezas.
  • 🌐 Analisar as implicações políticas e tecnológicas entre China e EUA.

タイムライン

  • 00:00:00 - 00:05:00

    O vídeo introduz o DeepSeek, um modelo generativo de linguagem grande criado por um laboratório chinês. O apresentador discute a rivalidade entre Estados Unidos e China na tecnologia de inteligência artificial, ressalta que o DeepSeek não superou a OpenAI, mas é comparável ao modelo O1, mencionando que a OpenAI tem um modelo mais avançado, o O3. Embora o DeepSeek tenha boas performances, é importante não exagerar as expectativas e entender que ele ainda não desbancou a OpenAI em termos de poder.

  • 00:05:00 - 00:10:00

    O DeepSeek é um modelo de código aberto, com a possibilidade de treinar em hardware próprio, embora exija uma memória gráfica substancial. O apresentador explica que versões destiladas do modelo podem ser utilizadas em máquinas menos potentes. Existe a versatilidade da implementação off-line, reduzindo custos com tokens da OpenAI. Além disso, o DeepSeek permite um processo de raciocínio mais claro durante a elaboração das respostas, o que fornece uma nova abordagem para o uso da IA na prática.

  • 00:10:00 - 00:15:09

    As ações da NVIDIA caíram devido à eficiência do treinamento do DeepSeek, que pode ser realizado com menor custo em comparação aos modelos da OpenAI. O modelo DeepSeek foi estimado em 6 milhões de dólares para treinar, em contraste com 100 milhões da OpenAI. Apesar dessa pressão no mercado acionário, o DeepSeek depende de chips da NVIDIA para seu treinamento. O apresentador destaca que o DeepSeek não é mais inteligente, mas otimiza o processo de resposta, sugerindo que a verdadeira inovação reside em como executa a lógica e a apresentação do raciocínio.

マインドマップ

ビデオQ&A

  • O que é o DeepSeek?

    DeepSeek é um modelo generativo de linguagem grande (LLM) desenvolvido por um laboratório chinês, com capacidades de raciocínio comparáveis ao modelo OpenAI O1.

  • Por que as ações da NVIDIA estão caindo?

    As ações da NVIDIA estão caindo devido à descoberta do DeepSeek ser mais eficiente em treinamento de modelos, levando investidores a questionarem a necessidade de chips da NVIDIA.

  • DeepSeek é de código aberto?

    Sim, DeepSeek é um modelo open source que permite que desenvolvedores treinem em seus próprios hardwares, embora requer altos requisitos técnicos.

  • Como DeepSeek se compara ao OpenAI O3?

    DeepSeek é comparável ao OpenAI O1, mas não ao O3, que é o modelo mais poderoso da OpenAI.

  • Quais são as vantagens do DeepSeek?

    As vantagens incluem ser open source, permitir treinamento mais eficiente em máquinas domésticas e ter versões destiladas que são mais fáceis de rodar.

  • DeepSeek pode ser executado em hardware comum?

    O modelo completo do DeepSeek requer 670GB de memória de vídeo, tornando-o difícil de rodar em hardware comum, mas possui versões destiladas que são mais acessíveis.

  • Qual o custo estimado para treinar o modelo DeepSeek?

    O custo estimado para o treinamento do modelo DeepSeek foi de cerca de 6 milhões de dólares, muito abaixo dos 100 milhões gastos pela OpenAI.

  • DeepSeek oferece raciocínio?

    Sim, o DeepSeek apresenta uma forma de raciocínio ao refinar suas respostas, mas não é mais inteligente que outros modelos.

  • O que significa 'modelos destilados' ao falar do DeepSeek?

    Modelos destilados são versões simplificadas e menos poderosas do modelo original, treinadas com seus parâmetros, permitindo uso em hardware menos potente.

  • DeepSeek pode substituir modelos da OpenAI?

    Não, DeepSeek não substitui os modelos da OpenAI, mas se torna uma alternativa viável para certas aplicações.

ビデオをもっと見る

AIを活用したYouTubeの無料動画要約に即アクセス!
字幕
pt
オートスクロール:
  • 00:00:00
    Você está em 2025 e você não para de escutar  a seguinte palavra DeepSeek. O que é isso? O
  • 00:00:05
    que é esse modelo? O que tem a ver com a  OpenAI? Por que as ações da NVIDIA estão
  • 00:00:11
    caindo? E se você deveria aprender o DeepSeek e  investir tempo nisso? Aqui a gente vai explorar
  • 00:00:16
    alguns detalhes que ainda não chegam numa  profundidade técnica o suficiente ao ponto
  • 00:00:20
    de ler o DeepSeek Paper e entender de ponta a  ponta, mas isso já vai ser o suficiente para
  • 00:00:25
    você entender se vale a pena ou não seguir esse  modelo e o porquê o mercado anda respondendo
  • 00:00:30
    dessa forma. Beleza? Então o objetivo aqui,  como eu disse, não é ser exatamente técnico
  • 00:00:34
    e sim seguir os pontos mais importantes  para que você tenha uma visão global,
  • 00:00:38
    uma visão do todo, para saber, enfim, se  você deve mergulhar de cabeça nisso ou não.
  • 00:00:43
    E explicar o motivo desse rebuliço  e fazer você entender todo o hype,
  • 00:00:47
    beleza? Principalmente na parte  de tecnologias e finanças,
  • 00:00:50
    já que isso está diretamente correlacionado com  a NVIDIA e principalmente com os seus preços das
  • 00:00:55
    ações. Mas o que é o DeepSeek? O DeepSeek R1  é um modelo generativo de linguagem grande,
  • 00:01:00
    ou Large Language Model, criado por um  laboratório chinês chamado DeepSeek. Então
  • 00:01:06
    temos aqui um cenário onde os Estados Unidos  têm uma dominância total sobre a inteligência
  • 00:01:12
    artificial com suas empresas americanas, como  por exemplo a OpenAI, e agora surge num cenário
  • 00:01:18
    um laboratório chinês que teoricamente  está competindo com os Estados Unidos.
  • 00:01:22
    É aquela famosa guerra, aquela famosa briga  China-Estados Unidos, China-Rússia, enfim, todo
  • 00:01:28
    esse bloco político. Mas a gente não vai ficar se  atentando só essa parte, porque ele é um modelo
  • 00:01:34
    com capacidade de raciocínio, e o raciocínio  está listado aqui de amarelo, porque sim,
  • 00:01:40
    ele teoricamente pensa, e ele está comparável com  o modelo da OpenAI O1, que é o modelo que a gente
  • 00:01:46
    costuma utilizar no nosso dia a dia. E no próprio  gráfico aqui, de comparativo que o DeepSeek soltou
  • 00:01:54
    nós temos então aqui o DeepSeek em azul e em cinza  temos aqui o modelo OpenAI O1 nessa build 12.17
  • 00:02:01
    então você pode ver aqui de uma forma bem  simplista ainda que a barra hachurada está
  • 00:02:08
    muito próximo de todas as barras que são as  barras cinzas Então, por que o DeepSeek está
  • 00:02:14
    dando um banho de performance no OpenAI  ON? Só que, uma coisa muito importante
  • 00:02:21
    que a gente precisa entender, já pra gente não  ficar tão emocionado com esse hype tecnológico,
  • 00:02:27
    é que o modelo da DeepSeek R1 é comparável com  o modelo O1 da OpenAI, mas isso não é o modelo
  • 00:02:35
    mais poderoso da OpenAI, o modelo mais poderoso  da OpenAI é o O3, portanto a gente já começa a
  • 00:02:41
    desbancar um hype que não é culpa do DeepSeek,  é culpa do entendimento de toda essa informação,
  • 00:02:47
    mas claro, é conveniente a eles, por isso  eles não comentam nada a respeito. mas que
  • 00:02:52
    eles não desbancaram a OpenAI, e sim chegaram  no nível de compatibilidade de resposta desse
  • 00:02:58
    modelo para aqueles testes específicos. Se  você é da área de programação, você já está
  • 00:03:03
    cansado de ver eventualmente alguns testes de  performance em que eles comparam C com Python.
  • 00:03:09
    Daí você vai olhar o comparativo, o  cara conseguiu fazer, por exemplo,
  • 00:03:13
    o Python ultrapassar em performance o C, colocando  um loop em um comando muito específico. Mas que
  • 00:03:20
    quando a gente olha no contexto geral, o C  ainda é um pouco mais performático do que
  • 00:03:26
    o Python. Isso é só um exemplo, já que eu não  quero entrar muito nessa trade de performance.
  • 00:03:30
    Só que o modelo mais poderoso da OpenAI é  a OpenAI O3. Então a China não desbancou
  • 00:03:36
    os Estados Unidos, apenas fizeram o value  mais eficiente, o que já é, com certeza,
  • 00:03:41
    um mérito incrível. mas que não serve para você  ficar assim tão emocionado quanto o mercado,
  • 00:03:48
    beleza? E quais são as vantagens da DeepSeek?  Primeiro é que pela primeira vez temos de ponta a
  • 00:03:55
    ponta um modelo de LLM que ele é Open Source, Não  adianta nada você colocar o seu código disponível,
  • 00:04:01
    o código aberto, no GitHub, que é o que  deveria ser todos os modelos da OpenAI.
  • 00:04:07
    Mas eles também liberaram, teoricamente, todos  os pesos e parâmetros de treinamento. Isso
  • 00:04:13
    significa que se você pegar o código que está  no GitHub, que seria do modelo R1 do DeepSeek,
  • 00:04:20
    e colocar todos os pesos, você pode treinar  no seu hardware. O que abre precedente, então,
  • 00:04:25
    pra que mais e mais empresas agora,  teoricamente de fundo de quintal,
  • 00:04:30
    sem ter todos os milhões de inovação que a OpenAI  e todas as empresas que vêm abaixo dela tem,
  • 00:04:36
    agora eles podem rodar, literalmente, nos  seus computadores caseiros com placas NVIDIA.
  • 00:04:41
    que você teoricamente também poderia fazer  rodando na sua casa. Só que você precisa
  • 00:04:46
    entender que o R1, o próprio modelo R1 que está  lá disponível, ele precisa de 670GB de memória de
  • 00:04:54
    placa de vídeo só pra ele carregar, porque  é exatamente essa quantidade de parâmetros
  • 00:04:59
    que ele tem para ele rodar. Então isso  significa que apesar de a gente ficar
  • 00:05:05
    aqui ainda todo emocionado de código  aberto, disso, aquilo, você não.
  • 00:05:09
    Você não consegue rodar porque você não tem essa  quantidade de giga de memória RAM na sua placa,
  • 00:05:14
    sequer você tem uma placa. A minha aqui é uma  placa RTX 3050, a mais básica que tem, então
  • 00:05:20
    não adianta que você não vai fazer o download. do  Hugging Face, que você vai conseguir rodar ele,
  • 00:05:25
    então aqui também a gente já desbanca uma  questão que estamos vendo de pessoas rodarem
  • 00:05:31
    o DeepSeek em Raspberry Pi, que são aqueles  computadores do tamanho de um cartão de crédito.
  • 00:05:36
    Só que também, pela graça do Open Source,  nós temos versões Distilled, que significam
  • 00:05:42
    que são versões menos poderosas porque elas são  treinadas com os parâmetros do modelo original,
  • 00:05:47
    fazendo basicamente a IA original treinando com  os seus parâmetros o modelo um pouco mais simples.
  • 00:05:54
    E aqui, na própria página do DeepSeek, nós temos  aqui alguns modelos que foram criados, ou melhor,
  • 00:05:59
    treinados em cima do Oyama, do Quinn, e que  eles podem ser rodados sim na sua máquina,
  • 00:06:05
    em que eles são modelos teoricamente menos  poderosos, mas ainda assim muito úteis. E se
  • 00:06:12
    você pegar aqui, por exemplo, um dos softwares  que eu tenho aqui para rodar esses modelos,
  • 00:06:17
    que é chamado de LM Studio, você baixa aqui  o modelo de Psycrion, de Steel e Yama, ou da
  • 00:06:23
    sua preferência, e você pode começar a interagir  aqui com o modelo totalmente carregado offline,
  • 00:06:28
    ou seja, o seu próprio hardware em que  você carrega a partir da sua memória RAM.
  • 00:06:32
    Então, se a gente fizer um teste aqui, eu vou,  por exemplo, colocar aqui uma pergunta. Quais
  • 00:06:36
    os benefícios para a saúde de um homem  de 40 anos praticando exercícios físicos,
  • 00:06:50
    especificamente a corrida de maratona?  Coloquei qualquer coisa aqui, beleza?
  • 00:06:57
    Então você vai ver que ele vai começar  a rodar. Claro que o meu computador é
  • 00:07:00
    um computador um pouco mais modesto, mas você  já começa a entender algumas vantagens aqui.
  • 00:07:05
    Primeiro que você não precisa ficar  agora mais pagando tokens para o OpenAI
  • 00:07:08
    e você pode utilizar ele offline  na sua própria máquina. E ainda,
  • 00:07:12
    aqui você começa a perceber alguns vieses de  inovação, e porque eu chamo de viés de inovação,
  • 00:07:18
    Porque uma das coisas que o DeepSeek fez  é deixar um pouco mais claro qual que é o
  • 00:07:23
    modelo de raciocínio que ele tá fazendo. Mas não,  isso daqui não é inteligente e não é raciocínio.
  • 00:07:29
    Isso daqui é uma forma de refinamento  da resposta antes dele conseguir dar a
  • 00:07:34
    resposta definitiva pra você. Então  veja aqui, sim, ele está pensando,
  • 00:07:38
    deixando isso daqui muito mais claro.  Mas isso daqui já é muito legal,
  • 00:07:42
    porque ele já vai refinar a sua resposta e  deixar a sua resposta muito mais próxima.
  • 00:07:47
    o que é muito mais interessante do que  a gente ter que colocar a resposta,
  • 00:07:51
    por exemplo, do OpenAI e pedir para ele fazer  isso. Porque, sim, existe essa técnica de
  • 00:07:56
    prompt engineer em que você pede a resposta,  ele elabora a resposta e você coloca mais um
  • 00:08:02
    prompt na sequência. Então, digamos assim,  que o DeepSeek já faz isso naturalmente,
  • 00:08:07
    o que já corta um bom trabalho da gente  que trabalha com inteligência artificial.
  • 00:08:11
    Então, terminado os seus raciocínios,  ou melhor, os seus pensamentos, então,
  • 00:08:16
    com base nisso, ele começa a elaborar  alguma coisa nesse sentido, beleza? Então,
  • 00:08:21
    se você também quiser rodar uma versão destilada  do DeepSeek, basta você entrar no site lmstudio.ie
  • 00:08:29
    e baixar a versão dele. Eu  mesmo tenho aqui, como você viu.
  • 00:08:34
    mas vamos olhar aqui alguns motivos do RAI então  a gente pode afirmar que o DeepSeek não abriu o
  • 00:08:42
    modelo da OpenAI e nem se tornou o melhor  ele se tornou compatível em alguns testes
  • 00:08:47
    e alguns benchmarks porque a grande vantagem  do DeepSeek então ele se tornou mais eficiente
  • 00:08:54
    em treinar modelos porque treinar IA é a  parte mais cara e pesada de um modelo no
  • 00:09:00
    geral a gente acredita que para fazer IA cada  vez maiores e melhores a gente precisava cada
  • 00:09:05
    vez mais de chips o que impulsionou bastante o  preço da NVIDIA a subir nos últimos anos então
  • 00:09:10
    se a gente poder Se a gente dá uma olhada  aqui nos preços das ações no próprio Google,
  • 00:09:15
    a gente vai ver que no último ano a NVIDIA, por  exemplo, o preço das suas ações subiram 133% em
  • 00:09:23
    preço em real. Só que por ser muito eficiente  no seu treinamento, e você precisa dar um pouco
  • 00:09:28
    mais de olhada, de ênfase técnica no paper,  todo o mercado de investidores se perguntaram
  • 00:09:34
    Por que então deveríamos utilizar o chip da  NVIDIA, já que agora temos o tal do DeepSeek,
  • 00:09:39
    que chega em valores muito próximos da OpenAI,  e eu estou colocando todo esse dinheiro. Então,
  • 00:09:44
    pelo mercado de ações, que é um mercado muito  líquido, e eu posso vender minhas ações no
  • 00:09:49
    momento em que o mercado está aberto e recuperar  o meu dinheiro, as ações da NVIDIA nos últimos
  • 00:09:54
    cinco dias despencaram 16%, dando vários  milhões de reais, teoricamente em prejuízo.
  • 00:10:00
    Só que isso significa o fim da NVIDIA?  Com certeza não, porque o DeepSeek muito
  • 00:10:05
    provavelmente foi treinado com chips da NVIDIA,  beleza? Então o custo computacional estimado
  • 00:10:10
    para o treinamento do modelo do DeepSeek dizem que  foram valores estimados de 6 milhões de dólares,
  • 00:10:17
    o que é uma fração do modelo gasto, do valor gasto  pela OpenAI que chega a beirar 100 milhões de
  • 00:10:25
    dólares. Só que a gente pode ver no artigo que  não temos aqui exatamente esse valor escrito,
  • 00:10:31
    muito menos nessa outra parte aqui do paper em  que ele fala que pode ser mais barato. De novo,
  • 00:10:37
    isso foi uma estimativa e por se falar  em China, a gente não pode, logicamente,
  • 00:10:42
    entender que é um modelo aberto  ou informações abertas de verdade.
  • 00:10:47
    Tanto que se você dá uma pesquisada por aí na  internet, O DeepSeek, lá o DeepSeek que foi
  • 00:10:52
    treinado, que é um modelo bem grandão,  que você pode acessar o site DeepSeek,
  • 00:10:56
    só digitar no Google DeepSeek, você vai entrar  no site deles, ele não dá umas respostas muito
  • 00:11:02
    precisas com relação à faixa. de tempo de  revolução na China então a gente pode ver
  • 00:11:08
    só que só por esse fato algumas coisas ali não  são tão open assim só que nós temos muitos mais
  • 00:11:14
    detalhes técnicos e que traz um mérito para esse  modelo como por exemplo o FP8 o DeepSeek para que
  • 00:11:22
    ele possa reduzir significativamente o espaço de  memória, o que ele fez? Em vez dele trabalhar,
  • 00:11:27
    por exemplo, com modelos da OpenAI com várias  casas na vírgula depois do zero, como por exemplo
  • 00:11:33
    32 casas, e esse custo de multiplicação e  operação com vetores que é o que o modelo
  • 00:11:39
    de O modelo de LLM faz por baixo do capu, ia falar  por baixo dos planos, mas não é exatamente isso,
  • 00:11:45
    por baixo do capu, é infinitamente menor, o  que diminui um pouco a precisão do modelo,
  • 00:11:51
    mas ainda assim deixa ele com as respostas muito  mais satisfatórias. Então isso significa que,
  • 00:11:56
    diminuindo a precisão do modelo, ele  diminui a quantidade de casas decimais
  • 00:12:00
    que ele precisa fazer a conta e é por isso um  dos motivos dele ser um pouco mais eficiente.
  • 00:12:05
    Ainda temos o seu respectivo paralelismo, que  ele pode aqui trabalhar com diversos modelos
  • 00:12:13
    aqui rodando teoricamente em paralelo. Ou  seja, ele pode diminuir um pouco mais a
  • 00:12:18
    carga computacional em cima de um dispositivo  específico. Temos ainda assim a destilação de
  • 00:12:24
    modelos o que permite você rodar isso numa  máquina ou até no próprio Raspberry Pi,
  • 00:12:31
    mas ainda sempre lembrando e sendo  bastante reticente com relação a isso,
  • 00:12:35
    em que você não está utilizando o modelo com a  sua capacidade total e as respostas podem variar.
  • 00:12:41
    Mas vamos combinar aqui, se você conseguir rodar  isso dentro do Raspberry Pi, que é um computador
  • 00:12:47
    do tamanho de um cartão de crédito, porque não  você conseguiria rodar isso dentro da sua VPS,
  • 00:12:52
    por exemplo, e deixar de gastar tokens e  pagar a OpenAI? É uma coisa que nos traz
  • 00:12:57
    e abre os olhos para a gente aqui que mexe com  a IA na prática. E o que significa raciocínio,
  • 00:13:04
    que foi aquilo que a gente viu? Significa  que o DeepSeek, ele pode agora, claro,
  • 00:13:09
    abordar problemas complexos, como a  toda LLM, como lógica, programação,
  • 00:13:14
    etc. Só que ele deixa isso um pouco mais  transparente, dando um pouco mais essa...
  • 00:13:19
    percepção em que ele está  raciocinando e também, claro,
  • 00:13:22
    ele utiliza esse raciocínio dele para refinar  a resposta. E não, ele não é mais inteligente,
  • 00:13:28
    ele só tem mais alguns passos de otimização  da sua resposta. O que não tira em nada o
  • 00:13:33
    mérito do DeepSeek, mas a gente não  precisa ficar tão emocionado assim.
  • 00:13:37
    É como o Fábio Akita disse no próprio vídeo  dele sobre LLMs, inteligência artificial,
  • 00:13:43
    recomendo você assistir ele no canal do YouTube,  em que ele fala que a nossa surpresa ou o que a
  • 00:13:50
    gente acha de mágica é inversamente proporcionar  o nosso conhecimento de tecnologia. Então,
  • 00:13:55
    se você é um programador, se você já viu a LLM  funcionando com alguma rede neural que funciona
  • 00:14:00
    desde a década de 60, muito provavelmente  quando você viu o DeepSeek ou a própria IA,
  • 00:14:05
    você falou, ah, beleza, é bacana,  tem todo o mérito tecnológico,
  • 00:14:10
    mas não é. responsável por cataclismos mundiais  e coisas do tipo, e não, a Skynet não chegou.
  • 00:14:16
    Apesar da gente ter que ficar sempre esperto  e atento porque essas tecnologias tendem a
  • 00:14:22
    substituir muitas outras profissões  como a gente já tem visto. E se você
  • 00:14:26
    quer acompanhar um pouco mais sobre  essa discussão, nós temos esse usuário,
  • 00:14:30
    esse link que eu vou deixar também aqui,  que foi o usuário do Twitter que postou
  • 00:14:37
    grande parte dessas informações e que eu  aconselho você seguir também. E se você
  • 00:14:42
    gostou dessa thread aqui que a gente conversou  do DeepSeek, você pode colocar mais informações.
  • 00:14:47
    E ao longo do tempo aqui, a gente vai instalar  o DeepSeek localmente e vai começar a utilizar
  • 00:14:53
    o DeepSeek na sua API destilada, colocando assim  mais utilidade e saindo um pouco mais do hype e
  • 00:15:00
    dando motivo para a gente poder economizar os  nossos tokens. Um forte abraço. Não esqueça de
  • 00:15:05
    me seguir, deixar os likes, deixar seus  comentários, positivos ou negativos.
タグ
  • DeepSeek
  • OpenAI
  • NVIDIA
  • Inteligência Artificial
  • Modelo LLM
  • Códigos Abertos
  • Treinamento de Modelos
  • Tecnologia
  • Eficiência
  • Mercado Financeiro