00:00:00
Esse é o Safe Source e nós vamos falar
00:00:01
agora sobre uma mudança que tá
00:00:04
acontecendo. Por enquanto é só teórico,
00:00:06
né? Só tem eh trabalhos teóricos, mas
00:00:09
que pode acontecer na prática nas
00:00:11
inteligências artificiais, nas LLM, né,
00:00:14
Large Language Model, e que é consiste
00:00:17
em, ao invés de você usar ponto
00:00:19
flutuante para fazer a conta, né, para
00:00:22
fazer a a rede neural, você usa um
00:00:24
modelo chamado 1.58 bit. Vamos entender
00:00:28
essa história aqui, porque esse aqui
00:00:29
pode ser revolucionário, pode facilitar
00:00:32
muito o uso de inteligência artificial,
00:00:34
ao invés de você precisar dos enorme
00:00:36
mega computadores que a o chat GPT usa,
00:00:39
por exemplo, tudo isso pode ser
00:00:41
diminuído muito em escala e de quebra
00:00:45
pode afetar as ações da Nvidia, hein?
00:00:47
Olha que coisa. Essa notícia não foi
00:00:49
sugerida por ninguém. Eu que achei isso
00:00:50
aqui na internet, achei super
00:00:51
interessante. Dei uma estudada para
00:00:53
entender o que que é essa história e tô
00:00:55
trazendo para vocês aqui porque achei
00:00:56
realmente interessante. Mas eu agradeço
00:00:58
a todo mundo que sugere notícias lá no
00:01:00
nosso site no
00:01:01
safesource.com. É
00:01:03
safesrc.com. E obrigado também a você
00:01:05
que tá assistindo o nosso vídeo. Se você
00:01:07
gosta do nosso conteúdo, por favor,
00:01:08
deixa o seu like, se inscreva aqui no
00:01:10
canal e considere se tornar um membro do
00:01:12
canal, contribuir pra gente aqui. Você
00:01:14
pode assistir esses vídeos com um pouco
00:01:16
de antecedência. Eu tipicamente gravo
00:01:18
esses vídeos na noite anterior ao que
00:01:20
eles são publicados. Então você tem
00:01:22
algumas horas aí de vantagem, mas o mais
00:01:24
importante é que você me ajuda a dedicar
00:01:26
mais tempo para esse canal aqui, né? Dos
00:01:28
meus canais todos, é um dos menores, eu
00:01:30
acabo não dedicando tanto tempo para cá.
00:01:33
Pois bem, eh o que acontece, né? Eh,
00:01:35
esse artigo aqui, na verdade, é esse
00:01:37
artigo aqui que causou uma grande
00:01:39
mudança, né? Ele falou que a era das
00:01:43
LLMs de 1 bit, né? Mas na verdade depois
00:01:46
ele explica aqui que ele não se refere
00:01:48
exatamente a 1 bit, mas assim a 1.58
00:01:51
bits. E qual que é a história disso
00:01:53
daqui, né? Eh, todo o modelo de LLM é
00:01:57
uma rede neural em que o grosso da
00:01:59
computação feita ali por cada camada
00:02:02
dessa rede neural, né, são várias
00:02:03
camadas de de eh de relacionamento ali
00:02:07
entre as entidades. Eh eh ela é
00:02:09
basicamente é um cálculo de uma uma
00:02:11
matriz, multiplicação de uma matriz, né?
00:02:13
Eh, ele explica nisso aqui. Vocês
00:02:15
lembram multiplicação de matriz como é
00:02:17
que funciona no colégio. É, é um negócio
00:02:19
complicado. As matrizes para serem
00:02:21
multiplicadas, o número de coluna das da
00:02:23
primeira matriz tem que ser equivalente
00:02:25
ao número de linhas da segunda matriz. E
00:02:27
o resultado vai ser o número de linhas
00:02:29
da primeira matriz com o tamanho de
00:02:30
número de colunas da segunda matriz,
00:02:33
dando isso daqui uma matriz diferente,
00:02:35
né? Mas tipicamente é é matriz versetor,
00:02:38
na verdade. Só que isso aqui envolve um
00:02:40
monte de multiplicação, um monte de soma
00:02:43
e coisa e tal. Então eles têm
00:02:45
tipicamente essa matriz aqui que é usado
00:02:48
e eh é essa matriz é a o aprendizado da
00:02:52
rede neural, né? A rede neurol, depois
00:02:53
que ela é treinada, ela cria um monte de
00:02:56
matrizes disso daqui e ao longo do
00:02:58
processamento isso é multiplicado várias
00:03:00
vezes pelos inputs e coisa e tal para
00:03:02
gerar o resultado final lá na nas LLMs,
00:03:05
né? E qual que é o problema disso daqui?
00:03:07
Bom, problema não tem, funciona muito
00:03:09
bem. Vocês sabem o sucesso que é o chat
00:03:11
GPT. O chat GPT 4 já é fantástico. Dizem
00:03:14
que o cinco tá mais ainda mais
00:03:16
impressionante. Mas essas esses grandes
00:03:18
modelos de linguagem tem um problema.
00:03:20
Eles requerem um hardware muito violento
00:03:23
para rodar, justamente por é tanta
00:03:25
multiplicação que você tem que fazer que
00:03:27
no final das contas um computador normal
00:03:30
você tem o limite ali, né? Eh, operações
00:03:32
de ponto flutuante, por mais que já
00:03:34
estejam muito mais otimizadas hoje em
00:03:36
dia, elas ainda são muito caras pro
00:03:38
processador, né? E é por isso também que
00:03:40
as placas de vídeo da Nvidia e até as
00:03:43
ações da Nvidia andaram subindo muito,
00:03:46
porque, né, eh, como tá crescendo esse
00:03:49
negócio de inteligência artificial, um
00:03:51
monte de empresas querendo criar sua
00:03:53
própria inteligência artificial ou fazer
00:03:55
a sua inteligência artificial, se você
00:03:57
olhar as ações da Nvidia aqui, elas
00:04:00
estão só crescendo, porque o pessoal tá
00:04:01
vendo, né, o Elon Musk brigou com a Open
00:04:04
Ai, agora ele criou a Grock, que é uma
00:04:06
outra um outro inteligência artificial,
00:04:07
ele vai precisar comprar um monte de
00:04:09
placas de vídeo. E por que que placas de
00:04:10
vídeo são importantes? Porque as placas
00:04:12
de vídeo elas fazem muitas operações de
00:04:14
ponto flutuante, né, muito otimizadas.
00:04:16
Isso é necessário para justamente para
00:04:19
você fazer os desenhos, né, a coisa em
00:04:21
3D, a renderização dos jogos, né? Então
00:04:25
eles aproveitam essa capacidade extra da
00:04:28
placa de vídeo para fazer eh esse tipo
00:04:30
de coisa. E daí que as ações da Nvidia
00:04:32
subiram muito, porque tá tudo quant todo
00:04:34
mundo querendo fazer a inteligência
00:04:35
artificial, todo mundo tem que comprar
00:04:36
um monte de placa de vídeo. A gente não
00:04:38
tá falando aqui de comprar placa de
00:04:39
vídeo pro seu joguinho e coisa não. São
00:04:41
empresas que compram 1 milhão de placas
00:04:43
de vídeo e aí lógico, né, a ação da
00:04:45
empresa tá crescendo. Realmente as
00:04:46
placas de vídeo da Nvidia são muito
00:04:48
boas, né? Só que se você olhar no último
00:04:50
dia aqui, deu uma queda. Eu não sei se é
00:04:52
porque o que eu vou falar para vocês
00:04:53
aqui, não, tá? Aqui, se você vê no ano
00:04:56
todo, cresceu, cresceu, cresceu e aqui
00:04:57
deu uma quedinha. Pode ser por causa
00:04:59
disso daqui, pode não ser. Talvez a
00:05:01
queda aqui que tenha sido por causa
00:05:02
disso, não sei. Mas enfim, eh, eu não
00:05:05
sou especialista em investimento. Não
00:05:07
tome a minha minha palavra como dica de
00:05:09
investimento nem nada, tá? O que eu tô
00:05:11
dizendo para vocês aqui é o seguinte,
00:05:13
essa técnica aqui prescinde de ponto
00:05:17
flutuante. Qual que é a ideia? O
00:05:19
primeiro paper foi isso daqui, ó. Eh,
00:05:22
redes neurais binarizadas. Então, ao
00:05:25
invés de você usar uma matriz com um
00:05:27
monte de número, como tá aqui, você
00:05:29
usava só -1 ou 1. Então é um bit só em
00:05:33
cada coisa aqui. E qual que é a
00:05:35
vantagem? -1 ou + 1? Você basicamente
00:05:38
transforma isso daí em adição, né?
00:05:40
Porque para para pensar, se for um
00:05:42
valor, você adiciona aquele valor. Se
00:05:44
for zero o valor, você subtrai aquele
00:05:46
valor. Não tem mais multiplicação, né? A
00:05:48
multiplicação deixou de existir nesse
00:05:51
caso. Virou só soma e subtração nisso
00:05:53
daí. Esse valor, essa questão binarizada
00:05:56
aqui já é um ganho enorme em relação à
00:05:59
questão de valores, mas aí surgiu esse
00:06:01
outro coisa aqui que é a eh redes
00:06:04
ternárias. Então isso se mostrou ainda
00:06:07
mais eficiente, né? E aqui finalmente
00:06:10
tem um paper aqui que é o mesmo paper
00:06:11
que é referenciado nesse artigo aqui da
00:06:14
Médium em que eles justamente explicam
00:06:16
que eles fizeram um benchmarking. Eles
00:06:18
pegaram a lhama, que é aquela
00:06:20
inteligência artificial que tá
00:06:22
disponível para o download. Eu já fiz
00:06:23
aqui no, tem aqui no canal um vídeo em
00:06:25
que eu faço o download dela, começo a
00:06:26
usar aqui. Você pode baixar, é, é, não é
00:06:29
tão boa quanto o chat GPT, tá? Mas você
00:06:31
roda ela no seu micro, né? Ela pode
00:06:33
fazer o que você quiser no seu micro. Se
00:06:35
você quiser fazer isso, só procurar aqui
00:06:36
o vídeo meu, ensino, baixo aqui, mostro
00:06:38
para você como é que faz e coisa e tal.
00:06:40
Só que a lhama ainda requer e eh ponto
00:06:43
flutuante, tanto que se você lembra da
00:06:45
instalação, ela requer placa da Nvidia
00:06:48
ou então da Radium, que são é
00:06:50
equivalente, né, uma outra competidora
00:06:51
também. Por quê? Por que a placa de
00:06:53
vídeo? Porque precisa fazer muita conta
00:06:55
com ponto flutuante. Se você usar só a
00:06:57
estrutura do seu processador para ponto
00:06:59
flutuante, simplesmente não funciona,
00:07:02
né? Fica muito lenta a coisa. E aí o que
00:07:05
esse artigo aqui fez? Ele ele fez o
00:07:08
teste com a estrutura que eles chamam de
00:07:09
1.58 bits. Que que é 1.58 bits? Não é
00:07:13
mais um bit só, não é zero ou é,
00:07:15
desculpa, -1 ou mais 1. Aqui é é -1, 0
00:07:19
ou mais 1. Então você tem a toda a
00:07:21
matriz aqui, ela ela cada posição dela
00:07:24
gasta 1.58 bits para armazenar essas
00:07:28
informações, né? 1.58, é lógico, é uma
00:07:31
uma forma de dizer isso. Daí na prática,
00:07:33
em termos práticos, vai ter que gastar 2
00:07:35
bits, porque não tem como armazenar 0,58
00:07:39
bit na memória. Mas o importante dessa
00:07:42
história aqui é que conceitualmente, e
00:07:45
de novo ressaltar, isso tudo aqui é
00:07:47
teórico, não tem, não tá ainda na
00:07:50
prática, não tem ainda uma rede neural
00:07:52
implementando isso daí, né? Então o que
00:07:54
ele mostra aqui é o seguinte, que se
00:07:56
você usar ao invés de ponto flutuante só
00:07:58
esses três números 0 1 e -1 e de novo
00:08:02
aqui também de novo você acabou com a
00:08:03
multiplicação, não tem mais
00:08:04
multiplicação. Se for mais um, você soma
00:08:07
o valor. Se for -1, você subtrai o
00:08:10
valor. Se for zero, você não muda nada.
00:08:12
Ou seja, né, são só, não tem nenhuma
00:08:15
multiplicação aí, é só soma. E fazer
00:08:18
soma, o processador normal é muito
00:08:20
rápido, você requer muito menos e eh
00:08:23
muito menos processamento, muito menos
00:08:25
memória, muito menos tudo, né? Então, a
00:08:27
grande parada disso daqui que já existia
00:08:29
esse tipo de coisa, já existia, já
00:08:30
tinham outros dois papers aqui, né? E
00:08:32
esse pessoal desse paper aqui, que que
00:08:34
eles fez? Eles fizeram isso na prática.
00:08:36
Eles pegaram uma lhama e adaptaram ela
00:08:39
pra bit.
00:08:41
T8, que é o que eles estão chamando
00:08:42
aqui, esse modelo e aqui, e fizeram o
00:08:46
teste e viram que em termos de
00:08:47
eficiência é a mesma coisa. Em termos de
00:08:50
consumo de memória caiu de 2.08 para
00:08:53
0.8, ou seja, teve uma redução aqui de
00:08:56
dois duas vezes e meia, né, du vezes,
00:09:00
né? E também a latência caiu de 1.18
00:09:03
para 0,96, ou seja, caiu bastante a
00:09:06
latência, 23% menos de latência, né?
00:09:10
fizeram um outro, um outro teste também
00:09:12
com o modelo de
00:09:14
1.3B, 1.3 GB, né? Eh, eh, porque isso
00:09:18
aqui é 700 M by, né? Que é isso daqui é
00:09:21
o tamanho do da da instrução de eh de
00:09:24
aprendizado, da do da parte de
00:09:26
aprendizado. Só que aí o que que eles
00:09:28
fazem? Na verdade, ele transforma isso
00:09:29
tudo aqui para 1.58 bits. E repara, cai
00:09:33
muito a o uso de memória, então quase
00:09:36
três vezes menos memória aqui nessa
00:09:39
maior e a reduz a latência em
00:09:42
67%. E quanto mais você aumenta o
00:09:45
tamanho da da base de aprendizado, né?
00:09:48
Então, por exemplo, pegaram um lama aqui
00:09:50
de três eh 3 GB, né, de memórias, 3 GB
00:09:53
de 3 GB de memória. Aí, olha só, eh, o
00:09:57
modelo de 3 GB da própria Bitnet
00:10:01
B1.58 foi quatro vez 3.5 vezes mais
00:10:05
rápido ou desculpa, 3.5 vezes, gastou
00:10:07
menos memória e foi e mais de duas
00:10:10
vezes, quase três vezes mais rápido que
00:10:13
o outro. Ou seja, que que tá acontecendo
00:10:14
aqui? você tá eh eh eh aumentando a a
00:10:19
velocidade, a eficiência do modelo,
00:10:21
tendo o mesmo resultado no final das
00:10:23
contas. O resultado final é o mesmo.
00:10:25
Você só tá mudando aqui a capacidade, o
00:10:27
quanto que você precisa de memória e a
00:10:29
velocidade de processamento, porque você
00:10:31
não usa mais ponto flutuante, né? E aí
00:10:33
eles até apontam aqui que, poxa, dá para
00:10:35
você fazer a
00:10:37
bit de
00:10:39
3.9 e eh GB, né? Ou seja, que é ainda é
00:10:44
menor, ainda é três vezes menor do que o
00:10:47
original aqui da da do lama de 3 GB e
00:10:51
ainda roda 2.4 vezes mais rápida que o
00:10:54
lama. Então, no final das contas, eh,
00:10:57
eh, eh, numa qualidade
00:10:58
excelente, ou seja, você consegue, a
00:11:01
vantagem disso é esse negócio, você pode
00:11:03
aumentar o tamanho da base de
00:11:04
aprendizado, mantendo o mesmo hardware.
00:11:07
Se hoje o lama não é tão bom quanto o
00:11:09
chat GPT numa máquina interna, por quê?
00:11:12
Porque a máquina interna não tem
00:11:14
capacidade de processamento para fazer o
00:11:16
que faz o chat GPT lá no servidor dele
00:11:18
lá com zilhões de placas de vídeo,
00:11:21
Nvidia lá, né? aqui não. Se for passado
00:11:24
para isso daqui, você consegue uma
00:11:26
eficácia tão grande que você pode usar
00:11:28
um conjunto de aprendizado muito maior,
00:11:30
você vai ter o mesmo modelo rodando
00:11:32
muito melhor aqui, né? Então ele dá os
00:11:36
resultados aqui, ele mostra que é
00:11:37
consistentemente melhor você usar esse
00:11:40
modelo de B1.58 58. E o custo do
00:11:43
hardware cai assustadoramente, porque
00:11:46
enquanto placa de vídeo é um hardware
00:11:48
caro, eh, o processador, digamos,
00:11:51
normal, processador CPU normal é mais
00:11:53
barato, né? Então, e é mais usado nesse
00:11:56
caso aqui. Ele tá mostrando aqui a
00:11:58
comparação do lama com o Bitnet
00:12:01
B1.58 e eh em termos de número de
00:12:04
operações, né? Eh, o que que tem, o que
00:12:06
que você gasta de tempo para fazer?
00:12:07
multiplicação de ponto flutuante, adição
00:12:10
de ponto flutuante e aqui adição de
00:12:13
inteiro. E repara, o o lhama gasta esse
00:12:16
tempo todo aqui com adição de ponto
00:12:17
flutuante, esse tempo todo aqui com com
00:12:20
multiplicação de inteiro. E no final das
00:12:22
contas aqui, olha só, a Bitnet B1.58
00:12:25
aqui não gasta nada, quase é
00:12:27
praticamente zero, né? Então, é
00:12:30
realmente impressionante essa descoberta
00:12:31
deles aqui. Eh, eh, pode mudar muita
00:12:34
coisa, pode trazer a inteligência
00:12:36
artificial para um patamar muito
00:12:39
superior ao que a gente já tem hoje e
00:12:41
principalmente permitir a a
00:12:43
compartimentação da inteligência
00:12:45
artificial, né? Não vai ser mais como é
00:12:47
o chat GPT hoje, que você tem que criar
00:12:49
uma conta lá na Openai para você
00:12:52
consultar o chat GPT deles. E mas eles
00:12:55
que tm o modelo lá, você não tem o
00:12:56
modelo aqui não. Aqui você pode fazer o
00:12:58
seu modelo numa máquina normal e ter um
00:13:01
desempenho tão bom quanto, né? Vai ser
00:13:03
uma coisa fantástica, né? É lógico. E eh
00:13:06
é possível imaginar que aí o pessoal que
00:13:08
que tem supercutadores vão conseguir
00:13:10
fazer modelos ainda mais fodásticos com
00:13:12
essa tecnologia, né? Caramba, é
00:13:15
assustador esse negócio, né? Realmente é
00:13:16
impressionante isso. Ah, sim. E tem um
00:13:18
outro paper aqui que tá falando sobre o
00:13:21
treinamento também quantado também em
00:13:24
bits, né? Menos1, 0 e 1, que ainda não,
00:13:27
é isso que a gente tá falando aqui, é o
00:13:29
funcionamento da coisa. O treinamento
00:13:31
continua sendo feito como é hoje, né? As
00:13:33
redes neurais elas passam por um
00:13:35
treinamento e depois elas são usadas.
00:13:37
Aqui estão falando também do treinamento
00:13:39
ser feito dessa forma também. ganha-se
00:13:41
muito tempo com isso daí, muita, muito
00:13:43
mais efetividade, né? Que coisa isso. Só
00:13:46
uma correção rápida no que eu falei
00:13:48
aqui. Isso daqui é número de parâmetros,
00:13:51
não é megab, tá? Então aqui são 700
00:13:53
milhões de parâmetros, aqui 1.3 bilhões
00:13:56
de parâmetros e eh aqui também 3 bilhões
00:13:59
de parâmetros ou 3.9 bilhões de
00:14:01
parâmetros, não e bilhões de bytes, tá?
00:14:05
[Música]
00:14:08
Obrigado por assistir o vídeo até o
00:14:10
final. Se gostou do conteúdo, não
00:14:12
esqueça de deixar o seu like. Isso ajuda
00:14:14
o canal a crescer e a chegar para mais
00:14:16
gente. Se não gostou, deixe o dislike e
00:14:19
explique nos comentários como podemos
00:14:21
melhorar. Comente também sugestões de
00:14:23
temas que podemos trazer por aqui.
00:14:26
Comentários insultuosos ou defendendo
00:14:28
ditaduras e criminosos de guerra serão
00:14:31
sumariamente bloqueados. Agradeço a
00:14:33
compreensão. Se ainda não é inscrito no
00:14:35
canal, considere se inscrever clicando
00:14:37
no botão inscrever-se abaixo e marcando
00:14:40
a campainha para todos os avisos. Se
00:14:42
quiser ajudar o canal, veja no nosso
00:14:45
site como você pode fazer isso.
00:14:47
[Música]