INTELIGÊNCIA ARTIFICIAL vai MULTIPLICAR CAPACIDADE com MODELO BITNET 1,58 BIT, mas o que é 1,58 BIT?

00:14:52
https://www.youtube.com/watch?v=1tTskk1BSFc

الملخص

TLDRO vídeo explora uma mudança teórica nas inteligências artificiais, focando na utilização de um modelo de 1.58 bits em vez de ponto flutuante para operações em redes neurais. Essa abordagem promete revolucionar a eficiência das LLMs, permitindo que funcionem em hardware menos potente, reduzindo custos e aumentando a velocidade de processamento. O autor discute como essa técnica pode diminuir o uso de memória e latência, tornando a inteligência artificial mais acessível. Embora ainda seja uma teoria, os testes indicam que essa nova metodologia pode oferecer resultados equivalentes aos modelos tradicionais, mas com uma eficiência significativamente maior.

الوجبات الجاهزة

  • 💡 O modelo 1.58 bits pode revolucionar a IA.
  • 🖥️ Reduz a necessidade de hardware caro.
  • 📉 Diminui o uso de memória e latência.
  • 🔄 Elimina a multiplicação em cálculos.
  • 📊 Testes mostram eficiência equivalente a modelos tradicionais.
  • 💰 Pode impactar o mercado de ações da Nvidia.
  • 📈 Acesso a IA em máquinas comuns.
  • 🔍 A técnica ainda é teórica.
  • ⚙️ Binarização simplifica operações em redes neurais.
  • 🚀 Aumenta a velocidade de processamento.

الجدول الزمني

  • 00:00:00 - 00:05:00

    Neste vídeo, discute-se uma mudança teórica nas inteligências artificiais, especificamente nas LLMs (Modelos de Linguagem de Grande Escala), que envolve a utilização de um modelo chamado 1.58 bits em vez de ponto flutuante. Essa abordagem promete reduzir significativamente a necessidade de hardware potente, como os supercomputadores usados pelo ChatGPT, e pode impactar o mercado de ações da Nvidia. O apresentador também agradece aos espectadores e incentiva a interação com o canal, destacando a importância do apoio para a produção de conteúdo.

  • 00:05:00 - 00:14:52

    O artigo mencionado explora a eficiência das redes neurais binarizadas e ternárias, que eliminam a multiplicação, substituindo-a por adição e subtração, resultando em menor uso de memória e maior velocidade de processamento. Testes com a Llama, uma inteligência artificial, mostraram que a adaptação para o modelo de 1.58 bits pode reduzir o consumo de memória e latência, permitindo que modelos de aprendizado maiores sejam executados em hardware comum, democratizando o acesso à inteligência artificial e potencialmente revolucionando o campo.

الخريطة الذهنية

فيديو أسئلة وأجوبة

  • O que é o modelo de 1.58 bits?

    É uma abordagem teórica que utiliza valores de -1, 0 e +1 para operações em redes neurais, eliminando a necessidade de multiplicações complexas.

  • Como isso afeta o uso de hardware?

    Permite que modelos de IA funcionem em hardware menos potente, reduzindo custos e aumentando a eficiência.

  • Quais são os benefícios dessa técnica?

    Menor uso de memória, maior velocidade de processamento e possibilidade de rodar modelos de IA em máquinas comuns.

  • O que são LLMs?

    LLMs são Modelos de Linguagem de Grande Escala, como o ChatGPT, que requerem grande poder computacional.

  • Qual é a relação com a Nvidia?

    As ações da Nvidia têm subido devido à demanda por placas de vídeo para treinar modelos de IA, mas essa nova técnica pode reduzir essa necessidade.

  • Essa técnica já está em uso?

    Ainda é teórica e não foi implementada em redes neurais práticas.

  • Como a eficiência é medida?

    A eficiência é medida pela redução do uso de memória e latência durante o processamento.

  • O que é a lhama mencionada?

    É uma inteligência artificial que pode ser baixada e utilizada localmente, mas ainda requer ponto flutuante.

  • Quais são os resultados dos testes com o modelo de 1.58 bits?

    Os testes mostraram uma redução significativa no uso de memória e latência em comparação com modelos tradicionais.

  • O que significa 'binarização' em redes neurais?

    É a técnica de usar apenas dois valores (-1 e +1) para simplificar cálculos em redes neurais.

عرض المزيد من ملخصات الفيديو

احصل على وصول فوري إلى ملخصات فيديو YouTube المجانية المدعومة بالذكاء الاصطناعي!
الترجمات
pt
التمرير التلقائي:
  • 00:00:00
    Esse é o Safe Source e nós vamos falar
  • 00:00:01
    agora sobre uma mudança que tá
  • 00:00:04
    acontecendo. Por enquanto é só teórico,
  • 00:00:06
    né? Só tem eh trabalhos teóricos, mas
  • 00:00:09
    que pode acontecer na prática nas
  • 00:00:11
    inteligências artificiais, nas LLM, né,
  • 00:00:14
    Large Language Model, e que é consiste
  • 00:00:17
    em, ao invés de você usar ponto
  • 00:00:19
    flutuante para fazer a conta, né, para
  • 00:00:22
    fazer a a rede neural, você usa um
  • 00:00:24
    modelo chamado 1.58 bit. Vamos entender
  • 00:00:28
    essa história aqui, porque esse aqui
  • 00:00:29
    pode ser revolucionário, pode facilitar
  • 00:00:32
    muito o uso de inteligência artificial,
  • 00:00:34
    ao invés de você precisar dos enorme
  • 00:00:36
    mega computadores que a o chat GPT usa,
  • 00:00:39
    por exemplo, tudo isso pode ser
  • 00:00:41
    diminuído muito em escala e de quebra
  • 00:00:45
    pode afetar as ações da Nvidia, hein?
  • 00:00:47
    Olha que coisa. Essa notícia não foi
  • 00:00:49
    sugerida por ninguém. Eu que achei isso
  • 00:00:50
    aqui na internet, achei super
  • 00:00:51
    interessante. Dei uma estudada para
  • 00:00:53
    entender o que que é essa história e tô
  • 00:00:55
    trazendo para vocês aqui porque achei
  • 00:00:56
    realmente interessante. Mas eu agradeço
  • 00:00:58
    a todo mundo que sugere notícias lá no
  • 00:01:00
    nosso site no
  • 00:01:01
    safesource.com. É
  • 00:01:03
    safesrc.com. E obrigado também a você
  • 00:01:05
    que tá assistindo o nosso vídeo. Se você
  • 00:01:07
    gosta do nosso conteúdo, por favor,
  • 00:01:08
    deixa o seu like, se inscreva aqui no
  • 00:01:10
    canal e considere se tornar um membro do
  • 00:01:12
    canal, contribuir pra gente aqui. Você
  • 00:01:14
    pode assistir esses vídeos com um pouco
  • 00:01:16
    de antecedência. Eu tipicamente gravo
  • 00:01:18
    esses vídeos na noite anterior ao que
  • 00:01:20
    eles são publicados. Então você tem
  • 00:01:22
    algumas horas aí de vantagem, mas o mais
  • 00:01:24
    importante é que você me ajuda a dedicar
  • 00:01:26
    mais tempo para esse canal aqui, né? Dos
  • 00:01:28
    meus canais todos, é um dos menores, eu
  • 00:01:30
    acabo não dedicando tanto tempo para cá.
  • 00:01:33
    Pois bem, eh o que acontece, né? Eh,
  • 00:01:35
    esse artigo aqui, na verdade, é esse
  • 00:01:37
    artigo aqui que causou uma grande
  • 00:01:39
    mudança, né? Ele falou que a era das
  • 00:01:43
    LLMs de 1 bit, né? Mas na verdade depois
  • 00:01:46
    ele explica aqui que ele não se refere
  • 00:01:48
    exatamente a 1 bit, mas assim a 1.58
  • 00:01:51
    bits. E qual que é a história disso
  • 00:01:53
    daqui, né? Eh, todo o modelo de LLM é
  • 00:01:57
    uma rede neural em que o grosso da
  • 00:01:59
    computação feita ali por cada camada
  • 00:02:02
    dessa rede neural, né, são várias
  • 00:02:03
    camadas de de eh de relacionamento ali
  • 00:02:07
    entre as entidades. Eh eh ela é
  • 00:02:09
    basicamente é um cálculo de uma uma
  • 00:02:11
    matriz, multiplicação de uma matriz, né?
  • 00:02:13
    Eh, ele explica nisso aqui. Vocês
  • 00:02:15
    lembram multiplicação de matriz como é
  • 00:02:17
    que funciona no colégio. É, é um negócio
  • 00:02:19
    complicado. As matrizes para serem
  • 00:02:21
    multiplicadas, o número de coluna das da
  • 00:02:23
    primeira matriz tem que ser equivalente
  • 00:02:25
    ao número de linhas da segunda matriz. E
  • 00:02:27
    o resultado vai ser o número de linhas
  • 00:02:29
    da primeira matriz com o tamanho de
  • 00:02:30
    número de colunas da segunda matriz,
  • 00:02:33
    dando isso daqui uma matriz diferente,
  • 00:02:35
    né? Mas tipicamente é é matriz versetor,
  • 00:02:38
    na verdade. Só que isso aqui envolve um
  • 00:02:40
    monte de multiplicação, um monte de soma
  • 00:02:43
    e coisa e tal. Então eles têm
  • 00:02:45
    tipicamente essa matriz aqui que é usado
  • 00:02:48
    e eh é essa matriz é a o aprendizado da
  • 00:02:52
    rede neural, né? A rede neurol, depois
  • 00:02:53
    que ela é treinada, ela cria um monte de
  • 00:02:56
    matrizes disso daqui e ao longo do
  • 00:02:58
    processamento isso é multiplicado várias
  • 00:03:00
    vezes pelos inputs e coisa e tal para
  • 00:03:02
    gerar o resultado final lá na nas LLMs,
  • 00:03:05
    né? E qual que é o problema disso daqui?
  • 00:03:07
    Bom, problema não tem, funciona muito
  • 00:03:09
    bem. Vocês sabem o sucesso que é o chat
  • 00:03:11
    GPT. O chat GPT 4 já é fantástico. Dizem
  • 00:03:14
    que o cinco tá mais ainda mais
  • 00:03:16
    impressionante. Mas essas esses grandes
  • 00:03:18
    modelos de linguagem tem um problema.
  • 00:03:20
    Eles requerem um hardware muito violento
  • 00:03:23
    para rodar, justamente por é tanta
  • 00:03:25
    multiplicação que você tem que fazer que
  • 00:03:27
    no final das contas um computador normal
  • 00:03:30
    você tem o limite ali, né? Eh, operações
  • 00:03:32
    de ponto flutuante, por mais que já
  • 00:03:34
    estejam muito mais otimizadas hoje em
  • 00:03:36
    dia, elas ainda são muito caras pro
  • 00:03:38
    processador, né? E é por isso também que
  • 00:03:40
    as placas de vídeo da Nvidia e até as
  • 00:03:43
    ações da Nvidia andaram subindo muito,
  • 00:03:46
    porque, né, eh, como tá crescendo esse
  • 00:03:49
    negócio de inteligência artificial, um
  • 00:03:51
    monte de empresas querendo criar sua
  • 00:03:53
    própria inteligência artificial ou fazer
  • 00:03:55
    a sua inteligência artificial, se você
  • 00:03:57
    olhar as ações da Nvidia aqui, elas
  • 00:04:00
    estão só crescendo, porque o pessoal tá
  • 00:04:01
    vendo, né, o Elon Musk brigou com a Open
  • 00:04:04
    Ai, agora ele criou a Grock, que é uma
  • 00:04:06
    outra um outro inteligência artificial,
  • 00:04:07
    ele vai precisar comprar um monte de
  • 00:04:09
    placas de vídeo. E por que que placas de
  • 00:04:10
    vídeo são importantes? Porque as placas
  • 00:04:12
    de vídeo elas fazem muitas operações de
  • 00:04:14
    ponto flutuante, né, muito otimizadas.
  • 00:04:16
    Isso é necessário para justamente para
  • 00:04:19
    você fazer os desenhos, né, a coisa em
  • 00:04:21
    3D, a renderização dos jogos, né? Então
  • 00:04:25
    eles aproveitam essa capacidade extra da
  • 00:04:28
    placa de vídeo para fazer eh esse tipo
  • 00:04:30
    de coisa. E daí que as ações da Nvidia
  • 00:04:32
    subiram muito, porque tá tudo quant todo
  • 00:04:34
    mundo querendo fazer a inteligência
  • 00:04:35
    artificial, todo mundo tem que comprar
  • 00:04:36
    um monte de placa de vídeo. A gente não
  • 00:04:38
    tá falando aqui de comprar placa de
  • 00:04:39
    vídeo pro seu joguinho e coisa não. São
  • 00:04:41
    empresas que compram 1 milhão de placas
  • 00:04:43
    de vídeo e aí lógico, né, a ação da
  • 00:04:45
    empresa tá crescendo. Realmente as
  • 00:04:46
    placas de vídeo da Nvidia são muito
  • 00:04:48
    boas, né? Só que se você olhar no último
  • 00:04:50
    dia aqui, deu uma queda. Eu não sei se é
  • 00:04:52
    porque o que eu vou falar para vocês
  • 00:04:53
    aqui, não, tá? Aqui, se você vê no ano
  • 00:04:56
    todo, cresceu, cresceu, cresceu e aqui
  • 00:04:57
    deu uma quedinha. Pode ser por causa
  • 00:04:59
    disso daqui, pode não ser. Talvez a
  • 00:05:01
    queda aqui que tenha sido por causa
  • 00:05:02
    disso, não sei. Mas enfim, eh, eu não
  • 00:05:05
    sou especialista em investimento. Não
  • 00:05:07
    tome a minha minha palavra como dica de
  • 00:05:09
    investimento nem nada, tá? O que eu tô
  • 00:05:11
    dizendo para vocês aqui é o seguinte,
  • 00:05:13
    essa técnica aqui prescinde de ponto
  • 00:05:17
    flutuante. Qual que é a ideia? O
  • 00:05:19
    primeiro paper foi isso daqui, ó. Eh,
  • 00:05:22
    redes neurais binarizadas. Então, ao
  • 00:05:25
    invés de você usar uma matriz com um
  • 00:05:27
    monte de número, como tá aqui, você
  • 00:05:29
    usava só -1 ou 1. Então é um bit só em
  • 00:05:33
    cada coisa aqui. E qual que é a
  • 00:05:35
    vantagem? -1 ou + 1? Você basicamente
  • 00:05:38
    transforma isso daí em adição, né?
  • 00:05:40
    Porque para para pensar, se for um
  • 00:05:42
    valor, você adiciona aquele valor. Se
  • 00:05:44
    for zero o valor, você subtrai aquele
  • 00:05:46
    valor. Não tem mais multiplicação, né? A
  • 00:05:48
    multiplicação deixou de existir nesse
  • 00:05:51
    caso. Virou só soma e subtração nisso
  • 00:05:53
    daí. Esse valor, essa questão binarizada
  • 00:05:56
    aqui já é um ganho enorme em relação à
  • 00:05:59
    questão de valores, mas aí surgiu esse
  • 00:06:01
    outro coisa aqui que é a eh redes
  • 00:06:04
    ternárias. Então isso se mostrou ainda
  • 00:06:07
    mais eficiente, né? E aqui finalmente
  • 00:06:10
    tem um paper aqui que é o mesmo paper
  • 00:06:11
    que é referenciado nesse artigo aqui da
  • 00:06:14
    Médium em que eles justamente explicam
  • 00:06:16
    que eles fizeram um benchmarking. Eles
  • 00:06:18
    pegaram a lhama, que é aquela
  • 00:06:20
    inteligência artificial que tá
  • 00:06:22
    disponível para o download. Eu já fiz
  • 00:06:23
    aqui no, tem aqui no canal um vídeo em
  • 00:06:25
    que eu faço o download dela, começo a
  • 00:06:26
    usar aqui. Você pode baixar, é, é, não é
  • 00:06:29
    tão boa quanto o chat GPT, tá? Mas você
  • 00:06:31
    roda ela no seu micro, né? Ela pode
  • 00:06:33
    fazer o que você quiser no seu micro. Se
  • 00:06:35
    você quiser fazer isso, só procurar aqui
  • 00:06:36
    o vídeo meu, ensino, baixo aqui, mostro
  • 00:06:38
    para você como é que faz e coisa e tal.
  • 00:06:40
    Só que a lhama ainda requer e eh ponto
  • 00:06:43
    flutuante, tanto que se você lembra da
  • 00:06:45
    instalação, ela requer placa da Nvidia
  • 00:06:48
    ou então da Radium, que são é
  • 00:06:50
    equivalente, né, uma outra competidora
  • 00:06:51
    também. Por quê? Por que a placa de
  • 00:06:53
    vídeo? Porque precisa fazer muita conta
  • 00:06:55
    com ponto flutuante. Se você usar só a
  • 00:06:57
    estrutura do seu processador para ponto
  • 00:06:59
    flutuante, simplesmente não funciona,
  • 00:07:02
    né? Fica muito lenta a coisa. E aí o que
  • 00:07:05
    esse artigo aqui fez? Ele ele fez o
  • 00:07:08
    teste com a estrutura que eles chamam de
  • 00:07:09
    1.58 bits. Que que é 1.58 bits? Não é
  • 00:07:13
    mais um bit só, não é zero ou é,
  • 00:07:15
    desculpa, -1 ou mais 1. Aqui é é -1, 0
  • 00:07:19
    ou mais 1. Então você tem a toda a
  • 00:07:21
    matriz aqui, ela ela cada posição dela
  • 00:07:24
    gasta 1.58 bits para armazenar essas
  • 00:07:28
    informações, né? 1.58, é lógico, é uma
  • 00:07:31
    uma forma de dizer isso. Daí na prática,
  • 00:07:33
    em termos práticos, vai ter que gastar 2
  • 00:07:35
    bits, porque não tem como armazenar 0,58
  • 00:07:39
    bit na memória. Mas o importante dessa
  • 00:07:42
    história aqui é que conceitualmente, e
  • 00:07:45
    de novo ressaltar, isso tudo aqui é
  • 00:07:47
    teórico, não tem, não tá ainda na
  • 00:07:50
    prática, não tem ainda uma rede neural
  • 00:07:52
    implementando isso daí, né? Então o que
  • 00:07:54
    ele mostra aqui é o seguinte, que se
  • 00:07:56
    você usar ao invés de ponto flutuante só
  • 00:07:58
    esses três números 0 1 e -1 e de novo
  • 00:08:02
    aqui também de novo você acabou com a
  • 00:08:03
    multiplicação, não tem mais
  • 00:08:04
    multiplicação. Se for mais um, você soma
  • 00:08:07
    o valor. Se for -1, você subtrai o
  • 00:08:10
    valor. Se for zero, você não muda nada.
  • 00:08:12
    Ou seja, né, são só, não tem nenhuma
  • 00:08:15
    multiplicação aí, é só soma. E fazer
  • 00:08:18
    soma, o processador normal é muito
  • 00:08:20
    rápido, você requer muito menos e eh
  • 00:08:23
    muito menos processamento, muito menos
  • 00:08:25
    memória, muito menos tudo, né? Então, a
  • 00:08:27
    grande parada disso daqui que já existia
  • 00:08:29
    esse tipo de coisa, já existia, já
  • 00:08:30
    tinham outros dois papers aqui, né? E
  • 00:08:32
    esse pessoal desse paper aqui, que que
  • 00:08:34
    eles fez? Eles fizeram isso na prática.
  • 00:08:36
    Eles pegaram uma lhama e adaptaram ela
  • 00:08:39
    pra bit.
  • 00:08:41
    T8, que é o que eles estão chamando
  • 00:08:42
    aqui, esse modelo e aqui, e fizeram o
  • 00:08:46
    teste e viram que em termos de
  • 00:08:47
    eficiência é a mesma coisa. Em termos de
  • 00:08:50
    consumo de memória caiu de 2.08 para
  • 00:08:53
    0.8, ou seja, teve uma redução aqui de
  • 00:08:56
    dois duas vezes e meia, né, du vezes,
  • 00:09:00
    né? E também a latência caiu de 1.18
  • 00:09:03
    para 0,96, ou seja, caiu bastante a
  • 00:09:06
    latência, 23% menos de latência, né?
  • 00:09:10
    fizeram um outro, um outro teste também
  • 00:09:12
    com o modelo de
  • 00:09:14
    1.3B, 1.3 GB, né? Eh, eh, porque isso
  • 00:09:18
    aqui é 700 M by, né? Que é isso daqui é
  • 00:09:21
    o tamanho do da da instrução de eh de
  • 00:09:24
    aprendizado, da do da parte de
  • 00:09:26
    aprendizado. Só que aí o que que eles
  • 00:09:28
    fazem? Na verdade, ele transforma isso
  • 00:09:29
    tudo aqui para 1.58 bits. E repara, cai
  • 00:09:33
    muito a o uso de memória, então quase
  • 00:09:36
    três vezes menos memória aqui nessa
  • 00:09:39
    maior e a reduz a latência em
  • 00:09:42
    67%. E quanto mais você aumenta o
  • 00:09:45
    tamanho da da base de aprendizado, né?
  • 00:09:48
    Então, por exemplo, pegaram um lama aqui
  • 00:09:50
    de três eh 3 GB, né, de memórias, 3 GB
  • 00:09:53
    de 3 GB de memória. Aí, olha só, eh, o
  • 00:09:57
    modelo de 3 GB da própria Bitnet
  • 00:10:01
    B1.58 foi quatro vez 3.5 vezes mais
  • 00:10:05
    rápido ou desculpa, 3.5 vezes, gastou
  • 00:10:07
    menos memória e foi e mais de duas
  • 00:10:10
    vezes, quase três vezes mais rápido que
  • 00:10:13
    o outro. Ou seja, que que tá acontecendo
  • 00:10:14
    aqui? você tá eh eh eh aumentando a a
  • 00:10:19
    velocidade, a eficiência do modelo,
  • 00:10:21
    tendo o mesmo resultado no final das
  • 00:10:23
    contas. O resultado final é o mesmo.
  • 00:10:25
    Você só tá mudando aqui a capacidade, o
  • 00:10:27
    quanto que você precisa de memória e a
  • 00:10:29
    velocidade de processamento, porque você
  • 00:10:31
    não usa mais ponto flutuante, né? E aí
  • 00:10:33
    eles até apontam aqui que, poxa, dá para
  • 00:10:35
    você fazer a
  • 00:10:37
    bit de
  • 00:10:39
    3.9 e eh GB, né? Ou seja, que é ainda é
  • 00:10:44
    menor, ainda é três vezes menor do que o
  • 00:10:47
    original aqui da da do lama de 3 GB e
  • 00:10:51
    ainda roda 2.4 vezes mais rápida que o
  • 00:10:54
    lama. Então, no final das contas, eh,
  • 00:10:57
    eh, eh, numa qualidade
  • 00:10:58
    excelente, ou seja, você consegue, a
  • 00:11:01
    vantagem disso é esse negócio, você pode
  • 00:11:03
    aumentar o tamanho da base de
  • 00:11:04
    aprendizado, mantendo o mesmo hardware.
  • 00:11:07
    Se hoje o lama não é tão bom quanto o
  • 00:11:09
    chat GPT numa máquina interna, por quê?
  • 00:11:12
    Porque a máquina interna não tem
  • 00:11:14
    capacidade de processamento para fazer o
  • 00:11:16
    que faz o chat GPT lá no servidor dele
  • 00:11:18
    lá com zilhões de placas de vídeo,
  • 00:11:21
    Nvidia lá, né? aqui não. Se for passado
  • 00:11:24
    para isso daqui, você consegue uma
  • 00:11:26
    eficácia tão grande que você pode usar
  • 00:11:28
    um conjunto de aprendizado muito maior,
  • 00:11:30
    você vai ter o mesmo modelo rodando
  • 00:11:32
    muito melhor aqui, né? Então ele dá os
  • 00:11:36
    resultados aqui, ele mostra que é
  • 00:11:37
    consistentemente melhor você usar esse
  • 00:11:40
    modelo de B1.58 58. E o custo do
  • 00:11:43
    hardware cai assustadoramente, porque
  • 00:11:46
    enquanto placa de vídeo é um hardware
  • 00:11:48
    caro, eh, o processador, digamos,
  • 00:11:51
    normal, processador CPU normal é mais
  • 00:11:53
    barato, né? Então, e é mais usado nesse
  • 00:11:56
    caso aqui. Ele tá mostrando aqui a
  • 00:11:58
    comparação do lama com o Bitnet
  • 00:12:01
    B1.58 e eh em termos de número de
  • 00:12:04
    operações, né? Eh, o que que tem, o que
  • 00:12:06
    que você gasta de tempo para fazer?
  • 00:12:07
    multiplicação de ponto flutuante, adição
  • 00:12:10
    de ponto flutuante e aqui adição de
  • 00:12:13
    inteiro. E repara, o o lhama gasta esse
  • 00:12:16
    tempo todo aqui com adição de ponto
  • 00:12:17
    flutuante, esse tempo todo aqui com com
  • 00:12:20
    multiplicação de inteiro. E no final das
  • 00:12:22
    contas aqui, olha só, a Bitnet B1.58
  • 00:12:25
    aqui não gasta nada, quase é
  • 00:12:27
    praticamente zero, né? Então, é
  • 00:12:30
    realmente impressionante essa descoberta
  • 00:12:31
    deles aqui. Eh, eh, pode mudar muita
  • 00:12:34
    coisa, pode trazer a inteligência
  • 00:12:36
    artificial para um patamar muito
  • 00:12:39
    superior ao que a gente já tem hoje e
  • 00:12:41
    principalmente permitir a a
  • 00:12:43
    compartimentação da inteligência
  • 00:12:45
    artificial, né? Não vai ser mais como é
  • 00:12:47
    o chat GPT hoje, que você tem que criar
  • 00:12:49
    uma conta lá na Openai para você
  • 00:12:52
    consultar o chat GPT deles. E mas eles
  • 00:12:55
    que tm o modelo lá, você não tem o
  • 00:12:56
    modelo aqui não. Aqui você pode fazer o
  • 00:12:58
    seu modelo numa máquina normal e ter um
  • 00:13:01
    desempenho tão bom quanto, né? Vai ser
  • 00:13:03
    uma coisa fantástica, né? É lógico. E eh
  • 00:13:06
    é possível imaginar que aí o pessoal que
  • 00:13:08
    que tem supercutadores vão conseguir
  • 00:13:10
    fazer modelos ainda mais fodásticos com
  • 00:13:12
    essa tecnologia, né? Caramba, é
  • 00:13:15
    assustador esse negócio, né? Realmente é
  • 00:13:16
    impressionante isso. Ah, sim. E tem um
  • 00:13:18
    outro paper aqui que tá falando sobre o
  • 00:13:21
    treinamento também quantado também em
  • 00:13:24
    bits, né? Menos1, 0 e 1, que ainda não,
  • 00:13:27
    é isso que a gente tá falando aqui, é o
  • 00:13:29
    funcionamento da coisa. O treinamento
  • 00:13:31
    continua sendo feito como é hoje, né? As
  • 00:13:33
    redes neurais elas passam por um
  • 00:13:35
    treinamento e depois elas são usadas.
  • 00:13:37
    Aqui estão falando também do treinamento
  • 00:13:39
    ser feito dessa forma também. ganha-se
  • 00:13:41
    muito tempo com isso daí, muita, muito
  • 00:13:43
    mais efetividade, né? Que coisa isso. Só
  • 00:13:46
    uma correção rápida no que eu falei
  • 00:13:48
    aqui. Isso daqui é número de parâmetros,
  • 00:13:51
    não é megab, tá? Então aqui são 700
  • 00:13:53
    milhões de parâmetros, aqui 1.3 bilhões
  • 00:13:56
    de parâmetros e eh aqui também 3 bilhões
  • 00:13:59
    de parâmetros ou 3.9 bilhões de
  • 00:14:01
    parâmetros, não e bilhões de bytes, tá?
  • 00:14:05
    [Música]
  • 00:14:08
    Obrigado por assistir o vídeo até o
  • 00:14:10
    final. Se gostou do conteúdo, não
  • 00:14:12
    esqueça de deixar o seu like. Isso ajuda
  • 00:14:14
    o canal a crescer e a chegar para mais
  • 00:14:16
    gente. Se não gostou, deixe o dislike e
  • 00:14:19
    explique nos comentários como podemos
  • 00:14:21
    melhorar. Comente também sugestões de
  • 00:14:23
    temas que podemos trazer por aqui.
  • 00:14:26
    Comentários insultuosos ou defendendo
  • 00:14:28
    ditaduras e criminosos de guerra serão
  • 00:14:31
    sumariamente bloqueados. Agradeço a
  • 00:14:33
    compreensão. Se ainda não é inscrito no
  • 00:14:35
    canal, considere se inscrever clicando
  • 00:14:37
    no botão inscrever-se abaixo e marcando
  • 00:14:40
    a campainha para todos os avisos. Se
  • 00:14:42
    quiser ajudar o canal, veja no nosso
  • 00:14:45
    site como você pode fazer isso.
  • 00:14:47
    [Música]
الوسوم
  • inteligência artificial
  • LLM
  • modelo 1.58 bits
  • ponto flutuante
  • Nvidia
  • binarização
  • eficiência
  • hardware
  • memória
  • latência