DeepSeek é um modelo generativo de linguagem grande (LLM) desenvolvido por um laboratório chinês, com capacidades de raciocínio comparáveis ao modelo OpenAI O1.

Por que as ações da NVIDIA estão caindo?

As ações da NVIDIA estão caindo devido à descoberta do DeepSeek ser mais eficiente em treinamento de modelos, levando investidores a questionarem a necessidade de chips da NVIDIA.

DeepSeek é de código aberto?

Sim, DeepSeek é um modelo open source que permite que desenvolvedores treinem em seus próprios hardwares, embora requer altos requisitos técnicos.

Como DeepSeek se compara ao OpenAI O3?

DeepSeek é comparável ao OpenAI O1, mas não ao O3, que é o modelo mais poderoso da OpenAI.

Quais são as vantagens do DeepSeek?

As vantagens incluem ser open source, permitir treinamento mais eficiente em máquinas domésticas e ter versões destiladas que são mais fáceis de rodar.

DeepSeek pode ser executado em hardware comum?

O modelo completo do DeepSeek requer 670GB de memória de vídeo, tornando-o difícil de rodar em hardware comum, mas possui versões destiladas que são mais acessíveis.

Qual o custo estimado para treinar o modelo DeepSeek?

O custo estimado para o treinamento do modelo DeepSeek foi de cerca de 6 milhões de dólares, muito abaixo dos 100 milhões gastos pela OpenAI.

DeepSeek oferece raciocínio?

Sim, o DeepSeek apresenta uma forma de raciocínio ao refinar suas respostas, mas não é mais inteligente que outros modelos.

O que significa 'modelos destilados' ao falar do DeepSeek?

Modelos destilados são versões simplificadas e menos poderosas do modelo original, treinadas com seus parâmetros, permitindo uso em hardware menos potente.

DeepSeek pode substituir modelos da OpenAI?

Não, DeepSeek não substitui os modelos da OpenAI, mas se torna uma alternativa viável para certas aplicações.

POR QUE DEEPSEEK É UMA M*

00:15:09

https://www.youtube.com/watch?v=xgIiiSL7voM

概要

TLDRDeepSeek é um novo modelo generativo de linguagem grande desenvolvido por um laboratório chinês que promete competir com a OpenAI. O vídeo explora a eficiência desse modelo, que é open source e possibilita um uso mais acessível em hardware comum, ao mesmo tempo que analisa o impacto nas empresas de tecnologia, especialmente na NVIDIA. As ações da NVIDIA estão em queda, pois o mercado questiona a necessidade de seus chips frente à eficiência do DeepSeek. Apesar do hype, o DeepSeek não desbanca a OpenAI, sendo apenas mais eficiente em algumas métricas específicas.

収穫

🚀 DeepSeek é um novo modelo de linguagem grande criado na China.
📉 Ações da NVIDIA caíram devido à eficiência do DeepSeek.
🛠️ DeepSeek é open source e permite uso em hardware doméstico.
⚖️ DeepSeek é comparável ao OpenAI O1, mas não ao O3.
🔄 Modelos destilados do DeepSeek são mais acessíveis para uso pessoal.
💰 Custo do treinamento do DeepSeek foi significativamente menor que o da OpenAI.
🔍 DeepSeek apresenta uma forma de raciocínio em suas respostas.
🖥️ A execução do DeepSeek exige alta capacidade de memória.
📊 O impacto do DeepSeek no mercado financeiro está gerando incertezas.
🌐 Analisar as implicações políticas e tecnológicas entre China e EUA.

タイムライン

00:00:00 - 00:05:00
O vídeo introduz o DeepSeek, um modelo generativo de linguagem grande criado por um laboratório chinês. O apresentador discute a rivalidade entre Estados Unidos e China na tecnologia de inteligência artificial, ressalta que o DeepSeek não superou a OpenAI, mas é comparável ao modelo O1, mencionando que a OpenAI tem um modelo mais avançado, o O3. Embora o DeepSeek tenha boas performances, é importante não exagerar as expectativas e entender que ele ainda não desbancou a OpenAI em termos de poder.
00:05:00 - 00:10:00
O DeepSeek é um modelo de código aberto, com a possibilidade de treinar em hardware próprio, embora exija uma memória gráfica substancial. O apresentador explica que versões destiladas do modelo podem ser utilizadas em máquinas menos potentes. Existe a versatilidade da implementação off-line, reduzindo custos com tokens da OpenAI. Além disso, o DeepSeek permite um processo de raciocínio mais claro durante a elaboração das respostas, o que fornece uma nova abordagem para o uso da IA na prática.
00:10:00 - 00:15:09
As ações da NVIDIA caíram devido à eficiência do treinamento do DeepSeek, que pode ser realizado com menor custo em comparação aos modelos da OpenAI. O modelo DeepSeek foi estimado em 6 milhões de dólares para treinar, em contraste com 100 milhões da OpenAI. Apesar dessa pressão no mercado acionário, o DeepSeek depende de chips da NVIDIA para seu treinamento. O apresentador destaca que o DeepSeek não é mais inteligente, mas otimiza o processo de resposta, sugerindo que a verdadeira inovação reside em como executa a lógica e a apresentação do raciocínio.

マインドマップ

ビデオQ&A

O que é o DeepSeek?
DeepSeek é um modelo generativo de linguagem grande (LLM) desenvolvido por um laboratório chinês, com capacidades de raciocínio comparáveis ao modelo OpenAI O1.
Por que as ações da NVIDIA estão caindo?
As ações da NVIDIA estão caindo devido à descoberta do DeepSeek ser mais eficiente em treinamento de modelos, levando investidores a questionarem a necessidade de chips da NVIDIA.
DeepSeek é de código aberto?
Sim, DeepSeek é um modelo open source que permite que desenvolvedores treinem em seus próprios hardwares, embora requer altos requisitos técnicos.
Como DeepSeek se compara ao OpenAI O3?
DeepSeek é comparável ao OpenAI O1, mas não ao O3, que é o modelo mais poderoso da OpenAI.
Quais são as vantagens do DeepSeek?
As vantagens incluem ser open source, permitir treinamento mais eficiente em máquinas domésticas e ter versões destiladas que são mais fáceis de rodar.
DeepSeek pode ser executado em hardware comum?
O modelo completo do DeepSeek requer 670GB de memória de vídeo, tornando-o difícil de rodar em hardware comum, mas possui versões destiladas que são mais acessíveis.
Qual o custo estimado para treinar o modelo DeepSeek?
O custo estimado para o treinamento do modelo DeepSeek foi de cerca de 6 milhões de dólares, muito abaixo dos 100 milhões gastos pela OpenAI.
DeepSeek oferece raciocínio?
Sim, o DeepSeek apresenta uma forma de raciocínio ao refinar suas respostas, mas não é mais inteligente que outros modelos.
O que significa 'modelos destilados' ao falar do DeepSeek?
Modelos destilados são versões simplificadas e menos poderosas do modelo original, treinadas com seus parâmetros, permitindo uso em hardware menos potente.
DeepSeek pode substituir modelos da OpenAI?
Não, DeepSeek não substitui os modelos da OpenAI, mas se torna uma alternativa viável para certas aplicações.

ビデオをもっと見る

AIを活用したYouTubeの無料動画要約に即アクセス！

字幕

オートスクロール:

00:00:00
Você está em 2025 e você não para de escutar a seguinte palavra DeepSeek. O que é isso? O
00:00:05
que é esse modelo? O que tem a ver com a OpenAI? Por que as ações da NVIDIA estão
00:00:11
caindo? E se você deveria aprender o DeepSeek e investir tempo nisso? Aqui a gente vai explorar
00:00:16
alguns detalhes que ainda não chegam numa profundidade técnica o suficiente ao ponto
00:00:20
de ler o DeepSeek Paper e entender de ponta a ponta, mas isso já vai ser o suficiente para
00:00:25
você entender se vale a pena ou não seguir esse modelo e o porquê o mercado anda respondendo
00:00:30
dessa forma. Beleza? Então o objetivo aqui, como eu disse, não é ser exatamente técnico
00:00:34
e sim seguir os pontos mais importantes para que você tenha uma visão global,
00:00:38
uma visão do todo, para saber, enfim, se você deve mergulhar de cabeça nisso ou não.
00:00:43
E explicar o motivo desse rebuliço e fazer você entender todo o hype,
00:00:47
beleza? Principalmente na parte de tecnologias e finanças,
00:00:50
já que isso está diretamente correlacionado com a NVIDIA e principalmente com os seus preços das
00:00:55
ações. Mas o que é o DeepSeek? O DeepSeek R1 é um modelo generativo de linguagem grande,
00:01:00
ou Large Language Model, criado por um laboratório chinês chamado DeepSeek. Então
00:01:06
temos aqui um cenário onde os Estados Unidos têm uma dominância total sobre a inteligência
00:01:12
artificial com suas empresas americanas, como por exemplo a OpenAI, e agora surge num cenário
00:01:18
um laboratório chinês que teoricamente está competindo com os Estados Unidos.
00:01:22
É aquela famosa guerra, aquela famosa briga China-Estados Unidos, China-Rússia, enfim, todo
00:01:28
esse bloco político. Mas a gente não vai ficar se atentando só essa parte, porque ele é um modelo
00:01:34
com capacidade de raciocínio, e o raciocínio está listado aqui de amarelo, porque sim,
00:01:40
ele teoricamente pensa, e ele está comparável com o modelo da OpenAI O1, que é o modelo que a gente
00:01:46
costuma utilizar no nosso dia a dia. E no próprio gráfico aqui, de comparativo que o DeepSeek soltou
00:01:54
nós temos então aqui o DeepSeek em azul e em cinza temos aqui o modelo OpenAI O1 nessa build 12.17
00:02:01
então você pode ver aqui de uma forma bem simplista ainda que a barra hachurada está
00:02:08
muito próximo de todas as barras que são as barras cinzas Então, por que o DeepSeek está
00:02:14
dando um banho de performance no OpenAI ON? Só que, uma coisa muito importante
00:02:21
que a gente precisa entender, já pra gente não ficar tão emocionado com esse hype tecnológico,
00:02:27
é que o modelo da DeepSeek R1 é comparável com o modelo O1 da OpenAI, mas isso não é o modelo
00:02:35
mais poderoso da OpenAI, o modelo mais poderoso da OpenAI é o O3, portanto a gente já começa a
00:02:41
desbancar um hype que não é culpa do DeepSeek, é culpa do entendimento de toda essa informação,
00:02:47
mas claro, é conveniente a eles, por isso eles não comentam nada a respeito. mas que
00:02:52
eles não desbancaram a OpenAI, e sim chegaram no nível de compatibilidade de resposta desse
00:02:58
modelo para aqueles testes específicos. Se você é da área de programação, você já está
00:03:03
cansado de ver eventualmente alguns testes de performance em que eles comparam C com Python.
00:03:09
Daí você vai olhar o comparativo, o cara conseguiu fazer, por exemplo,
00:03:13
o Python ultrapassar em performance o C, colocando um loop em um comando muito específico. Mas que
00:03:20
quando a gente olha no contexto geral, o C ainda é um pouco mais performático do que
00:03:26
o Python. Isso é só um exemplo, já que eu não quero entrar muito nessa trade de performance.
00:03:30
Só que o modelo mais poderoso da OpenAI é a OpenAI O3. Então a China não desbancou
00:03:36
os Estados Unidos, apenas fizeram o value mais eficiente, o que já é, com certeza,
00:03:41
um mérito incrível. mas que não serve para você ficar assim tão emocionado quanto o mercado,
00:03:48
beleza? E quais são as vantagens da DeepSeek? Primeiro é que pela primeira vez temos de ponta a
00:03:55
ponta um modelo de LLM que ele é Open Source, Não adianta nada você colocar o seu código disponível,
00:04:01
o código aberto, no GitHub, que é o que deveria ser todos os modelos da OpenAI.
00:04:07
Mas eles também liberaram, teoricamente, todos os pesos e parâmetros de treinamento. Isso
00:04:13
significa que se você pegar o código que está no GitHub, que seria do modelo R1 do DeepSeek,
00:04:20
e colocar todos os pesos, você pode treinar no seu hardware. O que abre precedente, então,
00:04:25
pra que mais e mais empresas agora, teoricamente de fundo de quintal,
00:04:30
sem ter todos os milhões de inovação que a OpenAI e todas as empresas que vêm abaixo dela tem,
00:04:36
agora eles podem rodar, literalmente, nos seus computadores caseiros com placas NVIDIA.
00:04:41
que você teoricamente também poderia fazer rodando na sua casa. Só que você precisa
00:04:46
entender que o R1, o próprio modelo R1 que está lá disponível, ele precisa de 670GB de memória de
00:04:54
placa de vídeo só pra ele carregar, porque é exatamente essa quantidade de parâmetros
00:04:59
que ele tem para ele rodar. Então isso significa que apesar de a gente ficar
00:05:05
aqui ainda todo emocionado de código aberto, disso, aquilo, você não.
00:05:09
Você não consegue rodar porque você não tem essa quantidade de giga de memória RAM na sua placa,
00:05:14
sequer você tem uma placa. A minha aqui é uma placa RTX 3050, a mais básica que tem, então
00:05:20
não adianta que você não vai fazer o download. do Hugging Face, que você vai conseguir rodar ele,
00:05:25
então aqui também a gente já desbanca uma questão que estamos vendo de pessoas rodarem
00:05:31
o DeepSeek em Raspberry Pi, que são aqueles computadores do tamanho de um cartão de crédito.
00:05:36
Só que também, pela graça do Open Source, nós temos versões Distilled, que significam
00:05:42
que são versões menos poderosas porque elas são treinadas com os parâmetros do modelo original,
00:05:47
fazendo basicamente a IA original treinando com os seus parâmetros o modelo um pouco mais simples.
00:05:54
E aqui, na própria página do DeepSeek, nós temos aqui alguns modelos que foram criados, ou melhor,
00:05:59
treinados em cima do Oyama, do Quinn, e que eles podem ser rodados sim na sua máquina,
00:06:05
em que eles são modelos teoricamente menos poderosos, mas ainda assim muito úteis. E se
00:06:12
você pegar aqui, por exemplo, um dos softwares que eu tenho aqui para rodar esses modelos,
00:06:17
que é chamado de LM Studio, você baixa aqui o modelo de Psycrion, de Steel e Yama, ou da
00:06:23
sua preferência, e você pode começar a interagir aqui com o modelo totalmente carregado offline,
00:06:28
ou seja, o seu próprio hardware em que você carrega a partir da sua memória RAM.
00:06:32
Então, se a gente fizer um teste aqui, eu vou, por exemplo, colocar aqui uma pergunta. Quais
00:06:36
os benefícios para a saúde de um homem de 40 anos praticando exercícios físicos,
00:06:50
especificamente a corrida de maratona? Coloquei qualquer coisa aqui, beleza?
00:06:57
Então você vai ver que ele vai começar a rodar. Claro que o meu computador é
00:07:00
um computador um pouco mais modesto, mas você já começa a entender algumas vantagens aqui.
00:07:05
Primeiro que você não precisa ficar agora mais pagando tokens para o OpenAI
00:07:08
e você pode utilizar ele offline na sua própria máquina. E ainda,
00:07:12
aqui você começa a perceber alguns vieses de inovação, e porque eu chamo de viés de inovação,
00:07:18
Porque uma das coisas que o DeepSeek fez é deixar um pouco mais claro qual que é o
00:07:23
modelo de raciocínio que ele tá fazendo. Mas não, isso daqui não é inteligente e não é raciocínio.
00:07:29
Isso daqui é uma forma de refinamento da resposta antes dele conseguir dar a
00:07:34
resposta definitiva pra você. Então veja aqui, sim, ele está pensando,
00:07:38
deixando isso daqui muito mais claro. Mas isso daqui já é muito legal,
00:07:42
porque ele já vai refinar a sua resposta e deixar a sua resposta muito mais próxima.
00:07:47
o que é muito mais interessante do que a gente ter que colocar a resposta,
00:07:51
por exemplo, do OpenAI e pedir para ele fazer isso. Porque, sim, existe essa técnica de
00:07:56
prompt engineer em que você pede a resposta, ele elabora a resposta e você coloca mais um
00:08:02
prompt na sequência. Então, digamos assim, que o DeepSeek já faz isso naturalmente,
00:08:07
o que já corta um bom trabalho da gente que trabalha com inteligência artificial.
00:08:11
Então, terminado os seus raciocínios, ou melhor, os seus pensamentos, então,
00:08:16
com base nisso, ele começa a elaborar alguma coisa nesse sentido, beleza? Então,
00:08:21
se você também quiser rodar uma versão destilada do DeepSeek, basta você entrar no site lmstudio.ie
00:08:29
e baixar a versão dele. Eu mesmo tenho aqui, como você viu.
00:08:34
mas vamos olhar aqui alguns motivos do RAI então a gente pode afirmar que o DeepSeek não abriu o
00:08:42
modelo da OpenAI e nem se tornou o melhor ele se tornou compatível em alguns testes
00:08:47
e alguns benchmarks porque a grande vantagem do DeepSeek então ele se tornou mais eficiente
00:08:54
em treinar modelos porque treinar IA é a parte mais cara e pesada de um modelo no
00:09:00
geral a gente acredita que para fazer IA cada vez maiores e melhores a gente precisava cada
00:09:05
vez mais de chips o que impulsionou bastante o preço da NVIDIA a subir nos últimos anos então
00:09:10
se a gente poder Se a gente dá uma olhada aqui nos preços das ações no próprio Google,
00:09:15
a gente vai ver que no último ano a NVIDIA, por exemplo, o preço das suas ações subiram 133% em
00:09:23
preço em real. Só que por ser muito eficiente no seu treinamento, e você precisa dar um pouco
00:09:28
mais de olhada, de ênfase técnica no paper, todo o mercado de investidores se perguntaram
00:09:34
Por que então deveríamos utilizar o chip da NVIDIA, já que agora temos o tal do DeepSeek,
00:09:39
que chega em valores muito próximos da OpenAI, e eu estou colocando todo esse dinheiro. Então,
00:09:44
pelo mercado de ações, que é um mercado muito líquido, e eu posso vender minhas ações no
00:09:49
momento em que o mercado está aberto e recuperar o meu dinheiro, as ações da NVIDIA nos últimos
00:09:54
cinco dias despencaram 16%, dando vários milhões de reais, teoricamente em prejuízo.
00:10:00
Só que isso significa o fim da NVIDIA? Com certeza não, porque o DeepSeek muito
00:10:05
provavelmente foi treinado com chips da NVIDIA, beleza? Então o custo computacional estimado
00:10:10
para o treinamento do modelo do DeepSeek dizem que foram valores estimados de 6 milhões de dólares,
00:10:17
o que é uma fração do modelo gasto, do valor gasto pela OpenAI que chega a beirar 100 milhões de
00:10:25
dólares. Só que a gente pode ver no artigo que não temos aqui exatamente esse valor escrito,
00:10:31
muito menos nessa outra parte aqui do paper em que ele fala que pode ser mais barato. De novo,
00:10:37
isso foi uma estimativa e por se falar em China, a gente não pode, logicamente,
00:10:42
entender que é um modelo aberto ou informações abertas de verdade.
00:10:47
Tanto que se você dá uma pesquisada por aí na internet, O DeepSeek, lá o DeepSeek que foi
00:10:52
treinado, que é um modelo bem grandão, que você pode acessar o site DeepSeek,
00:10:56
só digitar no Google DeepSeek, você vai entrar no site deles, ele não dá umas respostas muito
00:11:02
precisas com relação à faixa. de tempo de revolução na China então a gente pode ver
00:11:08
só que só por esse fato algumas coisas ali não são tão open assim só que nós temos muitos mais
00:11:14
detalhes técnicos e que traz um mérito para esse modelo como por exemplo o FP8 o DeepSeek para que
00:11:22
ele possa reduzir significativamente o espaço de memória, o que ele fez? Em vez dele trabalhar,
00:11:27
por exemplo, com modelos da OpenAI com várias casas na vírgula depois do zero, como por exemplo
00:11:33
32 casas, e esse custo de multiplicação e operação com vetores que é o que o modelo
00:11:39
de O modelo de LLM faz por baixo do capu, ia falar por baixo dos planos, mas não é exatamente isso,
00:11:45
por baixo do capu, é infinitamente menor, o que diminui um pouco a precisão do modelo,
00:11:51
mas ainda assim deixa ele com as respostas muito mais satisfatórias. Então isso significa que,
00:11:56
diminuindo a precisão do modelo, ele diminui a quantidade de casas decimais
00:12:00
que ele precisa fazer a conta e é por isso um dos motivos dele ser um pouco mais eficiente.
00:12:05
Ainda temos o seu respectivo paralelismo, que ele pode aqui trabalhar com diversos modelos
00:12:13
aqui rodando teoricamente em paralelo. Ou seja, ele pode diminuir um pouco mais a
00:12:18
carga computacional em cima de um dispositivo específico. Temos ainda assim a destilação de
00:12:24
modelos o que permite você rodar isso numa máquina ou até no próprio Raspberry Pi,
00:12:31
mas ainda sempre lembrando e sendo bastante reticente com relação a isso,
00:12:35
em que você não está utilizando o modelo com a sua capacidade total e as respostas podem variar.
00:12:41
Mas vamos combinar aqui, se você conseguir rodar isso dentro do Raspberry Pi, que é um computador
00:12:47
do tamanho de um cartão de crédito, porque não você conseguiria rodar isso dentro da sua VPS,
00:12:52
por exemplo, e deixar de gastar tokens e pagar a OpenAI? É uma coisa que nos traz
00:12:57
e abre os olhos para a gente aqui que mexe com a IA na prática. E o que significa raciocínio,
00:13:04
que foi aquilo que a gente viu? Significa que o DeepSeek, ele pode agora, claro,
00:13:09
abordar problemas complexos, como a toda LLM, como lógica, programação,
00:13:14
etc. Só que ele deixa isso um pouco mais transparente, dando um pouco mais essa...
00:13:19
percepção em que ele está raciocinando e também, claro,
00:13:22
ele utiliza esse raciocínio dele para refinar a resposta. E não, ele não é mais inteligente,
00:13:28
ele só tem mais alguns passos de otimização da sua resposta. O que não tira em nada o
00:13:33
mérito do DeepSeek, mas a gente não precisa ficar tão emocionado assim.
00:13:37
É como o Fábio Akita disse no próprio vídeo dele sobre LLMs, inteligência artificial,
00:13:43
recomendo você assistir ele no canal do YouTube, em que ele fala que a nossa surpresa ou o que a
00:13:50
gente acha de mágica é inversamente proporcionar o nosso conhecimento de tecnologia. Então,
00:13:55
se você é um programador, se você já viu a LLM funcionando com alguma rede neural que funciona
00:14:00
desde a década de 60, muito provavelmente quando você viu o DeepSeek ou a própria IA,
00:14:05
você falou, ah, beleza, é bacana, tem todo o mérito tecnológico,
00:14:10
mas não é. responsável por cataclismos mundiais e coisas do tipo, e não, a Skynet não chegou.
00:14:16
Apesar da gente ter que ficar sempre esperto e atento porque essas tecnologias tendem a
00:14:22
substituir muitas outras profissões como a gente já tem visto. E se você
00:14:26
quer acompanhar um pouco mais sobre essa discussão, nós temos esse usuário,
00:14:30
esse link que eu vou deixar também aqui, que foi o usuário do Twitter que postou
00:14:37
grande parte dessas informações e que eu aconselho você seguir também. E se você
00:14:42
gostou dessa thread aqui que a gente conversou do DeepSeek, você pode colocar mais informações.
00:14:47
E ao longo do tempo aqui, a gente vai instalar o DeepSeek localmente e vai começar a utilizar
00:14:53
o DeepSeek na sua API destilada, colocando assim mais utilidade e saindo um pouco mais do hype e
00:15:00
dando motivo para a gente poder economizar os nossos tokens. Um forte abraço. Não esqueça de
00:15:05
me seguir, deixar os likes, deixar seus comentários, positivos ou negativos.

タグ

DeepSeek
OpenAI
NVIDIA
Inteligência Artificial
Modelo LLM
Códigos Abertos
Treinamento de Modelos
Tecnologia
Eficiência
Mercado Financeiro