O que é o modelo de 1.58 bits?

É uma abordagem teórica que utiliza valores de -1, 0 e +1 para operações em redes neurais, eliminando a necessidade de multiplicações complexas.

Quais são os benefícios dessa técnica?

Menor uso de memória, maior velocidade de processamento e possibilidade de rodar modelos de IA em máquinas comuns.

LLMs são Modelos de Linguagem de Grande Escala, como o ChatGPT, que requerem grande poder computacional.

Qual é a relação com a Nvidia?

As ações da Nvidia têm subido devido à demanda por placas de vídeo para treinar modelos de IA, mas essa nova técnica pode reduzir essa necessidade.

Essa técnica já está em uso?

Ainda é teórica e não foi implementada em redes neurais práticas.

Como a eficiência é medida?

A eficiência é medida pela redução do uso de memória e latência durante o processamento.

O que é a lhama mencionada?

É uma inteligência artificial que pode ser baixada e utilizada localmente, mas ainda requer ponto flutuante.

Quais são os resultados dos testes com o modelo de 1.58 bits?

Os testes mostraram uma redução significativa no uso de memória e latência em comparação com modelos tradicionais.

O que significa 'binarização' em redes neurais?

É a técnica de usar apenas dois valores (-1 e +1) para simplificar cálculos em redes neurais.

INTELIGÊNCIA ARTIFICIAL vai MULTIPLICAR CAPACIDADE com MODELO BITNET 1,58 BIT, mas o que é 1,58 BIT？

00:14:52

https://www.youtube.com/watch?v=1tTskk1BSFc

Resumen

TLDRO vídeo explora uma mudança teórica nas inteligências artificiais, focando na utilização de um modelo de 1.58 bits em vez de ponto flutuante para operações em redes neurais. Essa abordagem promete revolucionar a eficiência das LLMs, permitindo que funcionem em hardware menos potente, reduzindo custos e aumentando a velocidade de processamento. O autor discute como essa técnica pode diminuir o uso de memória e latência, tornando a inteligência artificial mais acessível. Embora ainda seja uma teoria, os testes indicam que essa nova metodologia pode oferecer resultados equivalentes aos modelos tradicionais, mas com uma eficiência significativamente maior.

Para llevar

💡 O modelo 1.58 bits pode revolucionar a IA.
🖥️ Reduz a necessidade de hardware caro.
📉 Diminui o uso de memória e latência.
🔄 Elimina a multiplicação em cálculos.
📊 Testes mostram eficiência equivalente a modelos tradicionais.
💰 Pode impactar o mercado de ações da Nvidia.
📈 Acesso a IA em máquinas comuns.
🔍 A técnica ainda é teórica.
⚙️ Binarização simplifica operações em redes neurais.
🚀 Aumenta a velocidade de processamento.

Cronología

00:00:00 - 00:05:00
Neste vídeo, discute-se uma mudança teórica nas inteligências artificiais, especificamente nas LLMs (Modelos de Linguagem de Grande Escala), que envolve a utilização de um modelo chamado 1.58 bits em vez de ponto flutuante. Essa abordagem promete reduzir significativamente a necessidade de hardware potente, como os supercomputadores usados pelo ChatGPT, e pode impactar o mercado de ações da Nvidia. O apresentador também agradece aos espectadores e incentiva a interação com o canal, destacando a importância do apoio para a produção de conteúdo.
00:05:00 - 00:14:52
O artigo mencionado explora a eficiência das redes neurais binarizadas e ternárias, que eliminam a multiplicação, substituindo-a por adição e subtração, resultando em menor uso de memória e maior velocidade de processamento. Testes com a Llama, uma inteligência artificial, mostraram que a adaptação para o modelo de 1.58 bits pode reduzir o consumo de memória e latência, permitindo que modelos de aprendizado maiores sejam executados em hardware comum, democratizando o acesso à inteligência artificial e potencialmente revolucionando o campo.

Mapa mental

Vídeo de preguntas y respuestas

O que é o modelo de 1.58 bits?
É uma abordagem teórica que utiliza valores de -1, 0 e +1 para operações em redes neurais, eliminando a necessidade de multiplicações complexas.
Como isso afeta o uso de hardware?
Permite que modelos de IA funcionem em hardware menos potente, reduzindo custos e aumentando a eficiência.
Quais são os benefícios dessa técnica?
Menor uso de memória, maior velocidade de processamento e possibilidade de rodar modelos de IA em máquinas comuns.
O que são LLMs?
LLMs são Modelos de Linguagem de Grande Escala, como o ChatGPT, que requerem grande poder computacional.
Qual é a relação com a Nvidia?
As ações da Nvidia têm subido devido à demanda por placas de vídeo para treinar modelos de IA, mas essa nova técnica pode reduzir essa necessidade.
Essa técnica já está em uso?
Ainda é teórica e não foi implementada em redes neurais práticas.
Como a eficiência é medida?
A eficiência é medida pela redução do uso de memória e latência durante o processamento.
O que é a lhama mencionada?
É uma inteligência artificial que pode ser baixada e utilizada localmente, mas ainda requer ponto flutuante.
Quais são os resultados dos testes com o modelo de 1.58 bits?
Os testes mostraram uma redução significativa no uso de memória e latência em comparação com modelos tradicionais.
O que significa 'binarização' em redes neurais?
É a técnica de usar apenas dois valores (-1 e +1) para simplificar cálculos em redes neurais.

Ver más resúmenes de vídeos

Obtén acceso instantáneo a resúmenes gratuitos de vídeos de YouTube gracias a la IA.

Subtítulos

Desplazamiento automático:

00:00:00
Esse é o Safe Source e nós vamos falar
00:00:01
agora sobre uma mudança que tá
00:00:04
acontecendo. Por enquanto é só teórico,
00:00:06
né? Só tem eh trabalhos teóricos, mas
00:00:09
que pode acontecer na prática nas
00:00:11
inteligências artificiais, nas LLM, né,
00:00:14
Large Language Model, e que é consiste
00:00:17
em, ao invés de você usar ponto
00:00:19
flutuante para fazer a conta, né, para
00:00:22
fazer a a rede neural, você usa um
00:00:24
modelo chamado 1.58 bit. Vamos entender
00:00:28
essa história aqui, porque esse aqui
00:00:29
pode ser revolucionário, pode facilitar
00:00:32
muito o uso de inteligência artificial,
00:00:34
ao invés de você precisar dos enorme
00:00:36
mega computadores que a o chat GPT usa,
00:00:39
por exemplo, tudo isso pode ser
00:00:41
diminuído muito em escala e de quebra
00:00:45
pode afetar as ações da Nvidia, hein?
00:00:47
Olha que coisa. Essa notícia não foi
00:00:49
sugerida por ninguém. Eu que achei isso
00:00:50
aqui na internet, achei super
00:00:51
interessante. Dei uma estudada para
00:00:53
entender o que que é essa história e tô
00:00:55
trazendo para vocês aqui porque achei
00:00:56
realmente interessante. Mas eu agradeço
00:00:58
a todo mundo que sugere notícias lá no
00:01:00
nosso site no
00:01:01
safesource.com. É
00:01:03
safesrc.com. E obrigado também a você
00:01:05
que tá assistindo o nosso vídeo. Se você
00:01:07
gosta do nosso conteúdo, por favor,
00:01:08
deixa o seu like, se inscreva aqui no
00:01:10
canal e considere se tornar um membro do
00:01:12
canal, contribuir pra gente aqui. Você
00:01:14
pode assistir esses vídeos com um pouco
00:01:16
de antecedência. Eu tipicamente gravo
00:01:18
esses vídeos na noite anterior ao que
00:01:20
eles são publicados. Então você tem
00:01:22
algumas horas aí de vantagem, mas o mais
00:01:24
importante é que você me ajuda a dedicar
00:01:26
mais tempo para esse canal aqui, né? Dos
00:01:28
meus canais todos, é um dos menores, eu
00:01:30
acabo não dedicando tanto tempo para cá.
00:01:33
Pois bem, eh o que acontece, né? Eh,
00:01:35
esse artigo aqui, na verdade, é esse
00:01:37
artigo aqui que causou uma grande
00:01:39
mudança, né? Ele falou que a era das
00:01:43
LLMs de 1 bit, né? Mas na verdade depois
00:01:46
ele explica aqui que ele não se refere
00:01:48
exatamente a 1 bit, mas assim a 1.58
00:01:51
bits. E qual que é a história disso
00:01:53
daqui, né? Eh, todo o modelo de LLM é
00:01:57
uma rede neural em que o grosso da
00:01:59
computação feita ali por cada camada
00:02:02
dessa rede neural, né, são várias
00:02:03
camadas de de eh de relacionamento ali
00:02:07
entre as entidades. Eh eh ela é
00:02:09
basicamente é um cálculo de uma uma
00:02:11
matriz, multiplicação de uma matriz, né?
00:02:13
Eh, ele explica nisso aqui. Vocês
00:02:15
lembram multiplicação de matriz como é
00:02:17
que funciona no colégio. É, é um negócio
00:02:19
complicado. As matrizes para serem
00:02:21
multiplicadas, o número de coluna das da
00:02:23
primeira matriz tem que ser equivalente
00:02:25
ao número de linhas da segunda matriz. E
00:02:27
o resultado vai ser o número de linhas
00:02:29
da primeira matriz com o tamanho de
00:02:30
número de colunas da segunda matriz,
00:02:33
dando isso daqui uma matriz diferente,
00:02:35
né? Mas tipicamente é é matriz versetor,
00:02:38
na verdade. Só que isso aqui envolve um
00:02:40
monte de multiplicação, um monte de soma
00:02:43
e coisa e tal. Então eles têm
00:02:45
tipicamente essa matriz aqui que é usado
00:02:48
e eh é essa matriz é a o aprendizado da
00:02:52
rede neural, né? A rede neurol, depois
00:02:53
que ela é treinada, ela cria um monte de
00:02:56
matrizes disso daqui e ao longo do
00:02:58
processamento isso é multiplicado várias
00:03:00
vezes pelos inputs e coisa e tal para
00:03:02
gerar o resultado final lá na nas LLMs,
00:03:05
né? E qual que é o problema disso daqui?
00:03:07
Bom, problema não tem, funciona muito
00:03:09
bem. Vocês sabem o sucesso que é o chat
00:03:11
GPT. O chat GPT 4 já é fantástico. Dizem
00:03:14
que o cinco tá mais ainda mais
00:03:16
impressionante. Mas essas esses grandes
00:03:18
modelos de linguagem tem um problema.
00:03:20
Eles requerem um hardware muito violento
00:03:23
para rodar, justamente por é tanta
00:03:25
multiplicação que você tem que fazer que
00:03:27
no final das contas um computador normal
00:03:30
você tem o limite ali, né? Eh, operações
00:03:32
de ponto flutuante, por mais que já
00:03:34
estejam muito mais otimizadas hoje em
00:03:36
dia, elas ainda são muito caras pro
00:03:38
processador, né? E é por isso também que
00:03:40
as placas de vídeo da Nvidia e até as
00:03:43
ações da Nvidia andaram subindo muito,
00:03:46
porque, né, eh, como tá crescendo esse
00:03:49
negócio de inteligência artificial, um
00:03:51
monte de empresas querendo criar sua
00:03:53
própria inteligência artificial ou fazer
00:03:55
a sua inteligência artificial, se você
00:03:57
olhar as ações da Nvidia aqui, elas
00:04:00
estão só crescendo, porque o pessoal tá
00:04:01
vendo, né, o Elon Musk brigou com a Open
00:04:04
Ai, agora ele criou a Grock, que é uma
00:04:06
outra um outro inteligência artificial,
00:04:07
ele vai precisar comprar um monte de
00:04:09
placas de vídeo. E por que que placas de
00:04:10
vídeo são importantes? Porque as placas
00:04:12
de vídeo elas fazem muitas operações de
00:04:14
ponto flutuante, né, muito otimizadas.
00:04:16
Isso é necessário para justamente para
00:04:19
você fazer os desenhos, né, a coisa em
00:04:21
3D, a renderização dos jogos, né? Então
00:04:25
eles aproveitam essa capacidade extra da
00:04:28
placa de vídeo para fazer eh esse tipo
00:04:30
de coisa. E daí que as ações da Nvidia
00:04:32
subiram muito, porque tá tudo quant todo
00:04:34
mundo querendo fazer a inteligência
00:04:35
artificial, todo mundo tem que comprar
00:04:36
um monte de placa de vídeo. A gente não
00:04:38
tá falando aqui de comprar placa de
00:04:39
vídeo pro seu joguinho e coisa não. São
00:04:41
empresas que compram 1 milhão de placas
00:04:43
de vídeo e aí lógico, né, a ação da
00:04:45
empresa tá crescendo. Realmente as
00:04:46
placas de vídeo da Nvidia são muito
00:04:48
boas, né? Só que se você olhar no último
00:04:50
dia aqui, deu uma queda. Eu não sei se é
00:04:52
porque o que eu vou falar para vocês
00:04:53
aqui, não, tá? Aqui, se você vê no ano
00:04:56
todo, cresceu, cresceu, cresceu e aqui
00:04:57
deu uma quedinha. Pode ser por causa
00:04:59
disso daqui, pode não ser. Talvez a
00:05:01
queda aqui que tenha sido por causa
00:05:02
disso, não sei. Mas enfim, eh, eu não
00:05:05
sou especialista em investimento. Não
00:05:07
tome a minha minha palavra como dica de
00:05:09
investimento nem nada, tá? O que eu tô
00:05:11
dizendo para vocês aqui é o seguinte,
00:05:13
essa técnica aqui prescinde de ponto
00:05:17
flutuante. Qual que é a ideia? O
00:05:19
primeiro paper foi isso daqui, ó. Eh,
00:05:22
redes neurais binarizadas. Então, ao
00:05:25
invés de você usar uma matriz com um
00:05:27
monte de número, como tá aqui, você
00:05:29
usava só -1 ou 1. Então é um bit só em
00:05:33
cada coisa aqui. E qual que é a
00:05:35
vantagem? -1 ou + 1? Você basicamente
00:05:38
transforma isso daí em adição, né?
00:05:40
Porque para para pensar, se for um
00:05:42
valor, você adiciona aquele valor. Se
00:05:44
for zero o valor, você subtrai aquele
00:05:46
valor. Não tem mais multiplicação, né? A
00:05:48
multiplicação deixou de existir nesse
00:05:51
caso. Virou só soma e subtração nisso
00:05:53
daí. Esse valor, essa questão binarizada
00:05:56
aqui já é um ganho enorme em relação à
00:05:59
questão de valores, mas aí surgiu esse
00:06:01
outro coisa aqui que é a eh redes
00:06:04
ternárias. Então isso se mostrou ainda
00:06:07
mais eficiente, né? E aqui finalmente
00:06:10
tem um paper aqui que é o mesmo paper
00:06:11
que é referenciado nesse artigo aqui da
00:06:14
Médium em que eles justamente explicam
00:06:16
que eles fizeram um benchmarking. Eles
00:06:18
pegaram a lhama, que é aquela
00:06:20
inteligência artificial que tá
00:06:22
disponível para o download. Eu já fiz
00:06:23
aqui no, tem aqui no canal um vídeo em
00:06:25
que eu faço o download dela, começo a
00:06:26
usar aqui. Você pode baixar, é, é, não é
00:06:29
tão boa quanto o chat GPT, tá? Mas você
00:06:31
roda ela no seu micro, né? Ela pode
00:06:33
fazer o que você quiser no seu micro. Se
00:06:35
você quiser fazer isso, só procurar aqui
00:06:36
o vídeo meu, ensino, baixo aqui, mostro
00:06:38
para você como é que faz e coisa e tal.
00:06:40
Só que a lhama ainda requer e eh ponto
00:06:43
flutuante, tanto que se você lembra da
00:06:45
instalação, ela requer placa da Nvidia
00:06:48
ou então da Radium, que são é
00:06:50
equivalente, né, uma outra competidora
00:06:51
também. Por quê? Por que a placa de
00:06:53
vídeo? Porque precisa fazer muita conta
00:06:55
com ponto flutuante. Se você usar só a
00:06:57
estrutura do seu processador para ponto
00:06:59
flutuante, simplesmente não funciona,
00:07:02
né? Fica muito lenta a coisa. E aí o que
00:07:05
esse artigo aqui fez? Ele ele fez o
00:07:08
teste com a estrutura que eles chamam de
00:07:09
1.58 bits. Que que é 1.58 bits? Não é
00:07:13
mais um bit só, não é zero ou é,
00:07:15
desculpa, -1 ou mais 1. Aqui é é -1, 0
00:07:19
ou mais 1. Então você tem a toda a
00:07:21
matriz aqui, ela ela cada posição dela
00:07:24
gasta 1.58 bits para armazenar essas
00:07:28
informações, né? 1.58, é lógico, é uma
00:07:31
uma forma de dizer isso. Daí na prática,
00:07:33
em termos práticos, vai ter que gastar 2
00:07:35
bits, porque não tem como armazenar 0,58
00:07:39
bit na memória. Mas o importante dessa
00:07:42
história aqui é que conceitualmente, e
00:07:45
de novo ressaltar, isso tudo aqui é
00:07:47
teórico, não tem, não tá ainda na
00:07:50
prática, não tem ainda uma rede neural
00:07:52
implementando isso daí, né? Então o que
00:07:54
ele mostra aqui é o seguinte, que se
00:07:56
você usar ao invés de ponto flutuante só
00:07:58
esses três números 0 1 e -1 e de novo
00:08:02
aqui também de novo você acabou com a
00:08:03
multiplicação, não tem mais
00:08:04
multiplicação. Se for mais um, você soma
00:08:07
o valor. Se for -1, você subtrai o
00:08:10
valor. Se for zero, você não muda nada.
00:08:12
Ou seja, né, são só, não tem nenhuma
00:08:15
multiplicação aí, é só soma. E fazer
00:08:18
soma, o processador normal é muito
00:08:20
rápido, você requer muito menos e eh
00:08:23
muito menos processamento, muito menos
00:08:25
memória, muito menos tudo, né? Então, a
00:08:27
grande parada disso daqui que já existia
00:08:29
esse tipo de coisa, já existia, já
00:08:30
tinham outros dois papers aqui, né? E
00:08:32
esse pessoal desse paper aqui, que que
00:08:34
eles fez? Eles fizeram isso na prática.
00:08:36
Eles pegaram uma lhama e adaptaram ela
00:08:39
pra bit.
00:08:41
T8, que é o que eles estão chamando
00:08:42
aqui, esse modelo e aqui, e fizeram o
00:08:46
teste e viram que em termos de
00:08:47
eficiência é a mesma coisa. Em termos de
00:08:50
consumo de memória caiu de 2.08 para
00:08:53
0.8, ou seja, teve uma redução aqui de
00:08:56
dois duas vezes e meia, né, du vezes,
00:09:00
né? E também a latência caiu de 1.18
00:09:03
para 0,96, ou seja, caiu bastante a
00:09:06
latência, 23% menos de latência, né?
00:09:10
fizeram um outro, um outro teste também
00:09:12
com o modelo de
00:09:14
1.3B, 1.3 GB, né? Eh, eh, porque isso
00:09:18
aqui é 700 M by, né? Que é isso daqui é
00:09:21
o tamanho do da da instrução de eh de
00:09:24
aprendizado, da do da parte de
00:09:26
aprendizado. Só que aí o que que eles
00:09:28
fazem? Na verdade, ele transforma isso
00:09:29
tudo aqui para 1.58 bits. E repara, cai
00:09:33
muito a o uso de memória, então quase
00:09:36
três vezes menos memória aqui nessa
00:09:39
maior e a reduz a latência em
00:09:42
67%. E quanto mais você aumenta o
00:09:45
tamanho da da base de aprendizado, né?
00:09:48
Então, por exemplo, pegaram um lama aqui
00:09:50
de três eh 3 GB, né, de memórias, 3 GB
00:09:53
de 3 GB de memória. Aí, olha só, eh, o
00:09:57
modelo de 3 GB da própria Bitnet
00:10:01
B1.58 foi quatro vez 3.5 vezes mais
00:10:05
rápido ou desculpa, 3.5 vezes, gastou
00:10:07
menos memória e foi e mais de duas
00:10:10
vezes, quase três vezes mais rápido que
00:10:13
o outro. Ou seja, que que tá acontecendo
00:10:14
aqui? você tá eh eh eh aumentando a a
00:10:19
velocidade, a eficiência do modelo,
00:10:21
tendo o mesmo resultado no final das
00:10:23
contas. O resultado final é o mesmo.
00:10:25
Você só tá mudando aqui a capacidade, o
00:10:27
quanto que você precisa de memória e a
00:10:29
velocidade de processamento, porque você
00:10:31
não usa mais ponto flutuante, né? E aí
00:10:33
eles até apontam aqui que, poxa, dá para
00:10:35
você fazer a
00:10:37
bit de
00:10:39
3.9 e eh GB, né? Ou seja, que é ainda é
00:10:44
menor, ainda é três vezes menor do que o
00:10:47
original aqui da da do lama de 3 GB e
00:10:51
ainda roda 2.4 vezes mais rápida que o
00:10:54
lama. Então, no final das contas, eh,
00:10:57
eh, eh, numa qualidade
00:10:58
excelente, ou seja, você consegue, a
00:11:01
vantagem disso é esse negócio, você pode
00:11:03
aumentar o tamanho da base de
00:11:04
aprendizado, mantendo o mesmo hardware.
00:11:07
Se hoje o lama não é tão bom quanto o
00:11:09
chat GPT numa máquina interna, por quê?
00:11:12
Porque a máquina interna não tem
00:11:14
capacidade de processamento para fazer o
00:11:16
que faz o chat GPT lá no servidor dele
00:11:18
lá com zilhões de placas de vídeo,
00:11:21
Nvidia lá, né? aqui não. Se for passado
00:11:24
para isso daqui, você consegue uma
00:11:26
eficácia tão grande que você pode usar
00:11:28
um conjunto de aprendizado muito maior,
00:11:30
você vai ter o mesmo modelo rodando
00:11:32
muito melhor aqui, né? Então ele dá os
00:11:36
resultados aqui, ele mostra que é
00:11:37
consistentemente melhor você usar esse
00:11:40
modelo de B1.58 58. E o custo do
00:11:43
hardware cai assustadoramente, porque
00:11:46
enquanto placa de vídeo é um hardware
00:11:48
caro, eh, o processador, digamos,
00:11:51
normal, processador CPU normal é mais
00:11:53
barato, né? Então, e é mais usado nesse
00:11:56
caso aqui. Ele tá mostrando aqui a
00:11:58
comparação do lama com o Bitnet
00:12:01
B1.58 e eh em termos de número de
00:12:04
operações, né? Eh, o que que tem, o que
00:12:06
que você gasta de tempo para fazer?
00:12:07
multiplicação de ponto flutuante, adição
00:12:10
de ponto flutuante e aqui adição de
00:12:13
inteiro. E repara, o o lhama gasta esse
00:12:16
tempo todo aqui com adição de ponto
00:12:17
flutuante, esse tempo todo aqui com com
00:12:20
multiplicação de inteiro. E no final das
00:12:22
contas aqui, olha só, a Bitnet B1.58
00:12:25
aqui não gasta nada, quase é
00:12:27
praticamente zero, né? Então, é
00:12:30
realmente impressionante essa descoberta
00:12:31
deles aqui. Eh, eh, pode mudar muita
00:12:34
coisa, pode trazer a inteligência
00:12:36
artificial para um patamar muito
00:12:39
superior ao que a gente já tem hoje e
00:12:41
principalmente permitir a a
00:12:43
compartimentação da inteligência
00:12:45
artificial, né? Não vai ser mais como é
00:12:47
o chat GPT hoje, que você tem que criar
00:12:49
uma conta lá na Openai para você
00:12:52
consultar o chat GPT deles. E mas eles
00:12:55
que tm o modelo lá, você não tem o
00:12:56
modelo aqui não. Aqui você pode fazer o
00:12:58
seu modelo numa máquina normal e ter um
00:13:01
desempenho tão bom quanto, né? Vai ser
00:13:03
uma coisa fantástica, né? É lógico. E eh
00:13:06
é possível imaginar que aí o pessoal que
00:13:08
que tem supercutadores vão conseguir
00:13:10
fazer modelos ainda mais fodásticos com
00:13:12
essa tecnologia, né? Caramba, é
00:13:15
assustador esse negócio, né? Realmente é
00:13:16
impressionante isso. Ah, sim. E tem um
00:13:18
outro paper aqui que tá falando sobre o
00:13:21
treinamento também quantado também em
00:13:24
bits, né? Menos1, 0 e 1, que ainda não,
00:13:27
é isso que a gente tá falando aqui, é o
00:13:29
funcionamento da coisa. O treinamento
00:13:31
continua sendo feito como é hoje, né? As
00:13:33
redes neurais elas passam por um
00:13:35
treinamento e depois elas são usadas.
00:13:37
Aqui estão falando também do treinamento
00:13:39
ser feito dessa forma também. ganha-se
00:13:41
muito tempo com isso daí, muita, muito
00:13:43
mais efetividade, né? Que coisa isso. Só
00:13:46
uma correção rápida no que eu falei
00:13:48
aqui. Isso daqui é número de parâmetros,
00:13:51
não é megab, tá? Então aqui são 700
00:13:53
milhões de parâmetros, aqui 1.3 bilhões
00:13:56
de parâmetros e eh aqui também 3 bilhões
00:13:59
de parâmetros ou 3.9 bilhões de
00:14:01
parâmetros, não e bilhões de bytes, tá?
00:14:05
[Música]
00:14:08
Obrigado por assistir o vídeo até o
00:14:10
final. Se gostou do conteúdo, não
00:14:12
esqueça de deixar o seu like. Isso ajuda
00:14:14
o canal a crescer e a chegar para mais
00:14:16
gente. Se não gostou, deixe o dislike e
00:14:19
explique nos comentários como podemos
00:14:21
melhorar. Comente também sugestões de
00:14:23
temas que podemos trazer por aqui.
00:14:26
Comentários insultuosos ou defendendo
00:14:28
ditaduras e criminosos de guerra serão
00:14:31
sumariamente bloqueados. Agradeço a
00:14:33
compreensão. Se ainda não é inscrito no
00:14:35
canal, considere se inscrever clicando
00:14:37
no botão inscrever-se abaixo e marcando
00:14:40
a campainha para todos os avisos. Se
00:14:42
quiser ajudar o canal, veja no nosso
00:14:45
site como você pode fazer isso.
00:14:47
[Música]

Etiquetas

inteligência artificial
LLM
modelo 1.58 bits
ponto flutuante
Nvidia
binarização
eficiência
hardware
memória
latência