¿Qué hizo Liang We Feng en la universidad?

Formó un grupo de estudiantes para aprender sobre mercados financieros y trading.

¿Qué es el trading cuantitativo?

Es la acción de comprar y vender activos mediante modelos matemáticos y software, en lugar de manualmente.

¿Cuáles son los logros de Deep Seic?

Lanzaron un modelo de inteligencia artificial que supera a competidores de EE. UU. y se ofrece de manera económica y de código abierto.

¿Cómo Deep Seic optimiza su proceso de entrenamiento?

Utilizan un sistema de compresión de datos y comunicación entre gráficas para maximizar el rendimiento.

¿Qué diferencias hay entre Deep Seic y sus competidores?

Deep Seic es más barato y ofrece sus modelos de IA de manera gratuita para descargar.

Lo que no te contaron de DEEPSEEK: La IA China

00:37:17

https://www.youtube.com/watch?v=RFoEDLmLKpo

Resumen

TLDRLiang We Feng era un estudante de enxeñaría que se interesou polas finanzas e fundou High Flyer, unha firma de investimento baseada en trading cuantitativo. En 2021, anticipou a revolución da intelixencia artificial ao adquirir moitas gráficas de Nvidia. En 2023, fundou Deep Seic, lanza un modelo de IA en 2024 que supera aos modelos estadounidenses, xunto cunha nova arquitectura que optimiza a comunicación entre gráficas, todo vendido a tarifas máis baratas e que se pode descargar. Este avance representa un cambio significativo na industria da IA, destacándose pola súa economía e accesibilidade.

Para llevar

🚀 Liang We Feng destacou en finanzas desde a universidade.
💻 Fundou a firma de investimento High Flyer centrada en trading cuantitativo.
📈 Deep Seic lanzou un modelo de IA que superou a varios competidores de EE. UU.
🔍 A compañía ofrece tarifas de uso moito máis baratas que os seus rivais.
📥 Os modelos de Deep Seic son de código aberto e pódense descargar.
⚙️ Utilizan un innovador sistema para maximizar a comunicación entre gráficas.
🏆 A firma converteuse na cuarta de China, xestionando 8000 millóns de dólares en activos.
👩‍🎓 Formar grupos de estudantes para aprender sobre inversións pode ser clave para o éxito persoal.
📊 O uso de machine learning en investimentos abriuse camiños novos e emocionantes.
🧠 A nova arquitectura de Deep Seic optimiza a eficiencia do seu modelo de IA.

Cronología

00:00:00 - 00:05:00
Liang We Feng era un estudante de enxeñaría na universidade de Seyang, China, onde desenvolveu unha paixón polas finanzas. Durante os seus anos de estudante, se decatou de que para obter ingresos significativos, debía explorar novos temas, o que o levou a formar un grupo para aprender sobre mercados financeiros e, posteriormente, armarse coas ferramentas do quant trading, implementando modelos matemáticos para a automatización das transaccións de bolsa.
00:05:00 - 00:10:00
No ano 2016, Liang We Feng fundou High Flyer, unha firma de investimento que utilizaba decisións automatizadas baseadas en computadores, logrando que esta se convirtise na cuarta firma de China, manexando 8000 millóns de dólares en activos. Liang tiña o soño de aplicar a Intelixencia Artificial no ámbito financeiro e, en 2021, investiu en miles de tarxetas gráficas de Nvidia para desenvolver este concepto. En 2023, lanzou Deep Seic, un modelo de IA que rapidamente causou revuelo por competir con as grandes tecnoloxías existentes.
00:10:00 - 00:15:00
Deep Seic, co seu lanzamento en xullo de 2023, foi recibido con gran interese, xa que se considera que o desenvolvemento aestá por riba dos modelos de IA existentes en EEUU. O lanzamento dunha IA cun orzamento baixo pero con rendemento elevado provocou preocupación tanto no sector tecnolóxico como entre gobernos. Este vídeo pretende xustificar a relevancia de Deep Seic e analizar como este novo modelo integrou a IA para mellorar as finanzas e mercados.
00:15:00 - 00:20:00
Deep Seic foi financiado a partir de High Flyer, e non ten afiliación co goberno chino, a pesar do respaldo que este ofrece á Intelixencia Artificial. A firma lanzou dous modelos, Deep Seic R1 e Deep Seic V3, que compiten directamente con modelos como ChatGPT. Estas ferramentas para xerar texto están a causar un cambio significativo no mercado ao superar a outros competidores, o que resalta o nivel de avance alcanzado por este modelo con respecto aos anteriores.
00:20:00 - 00:25:00
Os modelos Deep Seic V3 e R1 foron validados en múltiples probas e obtiveron resultados superiores a ChatGPT e outros modelos no rendemento. Ademais, as tarifas para usar Deep Seic son notablemente máis económicas, o que favora o seu uso en múltiples aplicacións. A capacidade de generar e interactuar a través de API é unha parte clave do seu modelo de negocio, xeralmente accesible para desenvolvedores a un custo inferior que a competencia.
00:25:00 - 00:30:00
Deep Seic é notable non só polas súas capacidades senón tamén porque liberou o seu modelo de forma Open Source, permitindo que calquera poida descargalo e executalo nos seus propios servidores. Este feito marca un cambio importante no mercado da IA, sen precedentes na capacidade de personalización e accesibilidade, en comparación coas solucións convencionais que están restrinxidas a servidores privados como OpenAI ou Google.
00:30:00 - 00:37:17
O modelo Deep Seic tamén utiliza optimizacións técnicas que reducen os custos de entrenamento e operación, incluíndo unha arquitectura mixta que permite a activación selectiva de expertos especializados. Esta arquitectura, xunto co uso de hardware eficiente e técnicas de compressión de datos, resalta a capacidade de Deep Seic para competir no mercado e desafiar os liderados por compañías americanas.

Mapa mental

Vídeo de preguntas y respuestas

¿Qué hizo Liang We Feng en la universidad?
Formó un grupo de estudiantes para aprender sobre mercados financieros y trading.
¿Qué es el trading cuantitativo?
Es la acción de comprar y vender activos mediante modelos matemáticos y software, en lugar de manualmente.
¿Cuáles son los logros de Deep Seic?
Lanzaron un modelo de inteligencia artificial que supera a competidores de EE. UU. y se ofrece de manera económica y de código abierto.
¿Cómo Deep Seic optimiza su proceso de entrenamiento?
Utilizan un sistema de compresión de datos y comunicación entre gráficas para maximizar el rendimiento.
¿Qué diferencias hay entre Deep Seic y sus competidores?
Deep Seic es más barato y ofrece sus modelos de IA de manera gratuita para descargar.

Ver más resúmenes de vídeos

Obtén acceso instantáneo a resúmenes gratuitos de vídeos de YouTube gracias a la IA.

Subtítulos

Desplazamiento automático:

00:00:00
liang we feng era un estudiante de
00:00:01
ingeniería en la universidad de seyang
00:00:03
en China la ingeniería era algo que la
00:00:05
apasionaba pero en sus años de
00:00:07
estudiante se dio cuenta de que si
00:00:08
realmente quería hacer dinero tenía que
00:00:10
empezar a explorar otros temas ahí fue
00:00:12
donde se empezó a interesar por las
00:00:13
finanzas y formó un grupo de estudiantes
00:00:15
dentro de su universidad para hablar y
00:00:16
aprender sobre mercados financieros la
00:00:19
bolsa aplicando los conocimientos de
00:00:21
ingeniería a la bolsa empezó a hacer sus
00:00:23
primeras inmersiones en el mundo del
00:00:25
quant trading el quant trading es cuando
00:00:28
la acción de comprar y vender activos
00:00:29
las hace un ordenador o sea en lugar de
00:00:31
tener una persona que está ahí comprando
00:00:32
y vendiendo acciones a mano tenemos un
00:00:34
modelo matemático tenemos un ordenador
00:00:36
con un software que está ahí haciendo
00:00:38
análisis de todos los datos Y decidiendo
00:00:39
cuándo hay que comprar y cuándo hay que
00:00:41
vender no es el típico Bot de bolsa que
00:00:42
te deja el link de descarga a tu
00:00:44
youtuber de inversiones favorito sino
00:00:45
que estamos hablando de modelos
00:00:47
matemáticos avanzados Pero la idea del
00:00:48
lank iba Más allá de simplemente hacer
00:00:50
un Bot de bolsa su idea era usar Machine
00:00:53
learning aprendizaje automático para
00:00:55
poder tomar las decisiones y dedico gran
00:00:57
parte de sus años universitarios a todo
00:00:58
esto tanto es Así que en 2016 tras
00:01:01
terminar la universidad funda High flyer
00:01:03
una firma de inversión 100% basada en
00:01:06
decisiones de compra automatizadas por
00:01:08
ordenador y con los años se convirtió en
00:01:10
la firma top cuatro de China manejando
00:01:12
activos por 8000 millones de dólares
00:01:14
vamos que mal no le fue pero uno de sus
00:01:17
sueños desde el principio era usar
00:01:18
Inteligencia artificial aplicada a los
00:01:20
mercados financieros tener una
00:01:22
Inteligencia artificial que fuese capaz
00:01:23
de determinar con mucha precisión cuándo
00:01:26
comprar y cuándo vender el tema de la
00:01:27
Inteligencia artificial era tan
00:01:29
interesante para para el young que en
00:01:30
2021 compró miles de tarjetas gráficas
00:01:33
de nvidia muchos lo vieron como un
00:01:34
millonario excéntrico que compraba
00:01:36
juguetes para quitarse el gusanillo de
00:01:38
jugar con tecnologías Que de momento no
00:01:40
tenían ningún uso fuera de un proyecto
00:01:42
universitario y otros sabían que lo que
00:01:43
se venía iba a ser una Revolución dos
00:01:46
años más tarde el 17 de julio de 2023
00:01:49
funda la empresa hano Deep seic
00:01:52
artificial intelligence basic Technology
00:01:54
research Corporation limited también
00:01:56
conocida como deeps una empresa con
00:01:59
menos de 200 empleados que a finales de
00:02:01
2024 lanzó un modelo de Inteligencia
00:02:03
artificial que hizo temblar a toda la
00:02:05
industria tecnológica la bolsa e incluso
00:02:07
puso nerviosos a más de un gobierno de
00:02:10
qué iba este lanzamiento Bueno pues
00:02:11
seguramente lo hayas visto en las
00:02:12
noticias deeps es un modelo de
00:02:14
Inteligencia artificial creado con un
00:02:15
presupuesto supuestamente bastante bajo
00:02:18
y que aún así es mejor que algunos de
00:02:19
los mejores modelos creados por las
00:02:21
mejores empresas de Estados Unidos en
00:02:22
algunos aspectos Pero por qué dips ha
00:02:25
causado tanto revuelo Qué tiene de
00:02:26
especial que una empresa china haya
00:02:28
desarrollado un modelo así bueno Pues lo
00:02:30
más probable es que leyendo las noticias
00:02:31
no te hayas enterado de nada porque a mí
00:02:33
también me ha pasado Así que hoy te voy
00:02:34
a contar exactamente y sin tonterías ni
00:02:37
clickbaits qué tiene de especial deeps y
00:02:39
por qué ha puesto el mundo patas arriba
00:02:41
pero antes de continuar un mensaje de
00:02:43
nuestro sponsor jb gore es tu tienda de
00:02:45
claves de software de confianza donde
00:02:46
puedes encontrar entre otras cosas
00:02:48
claves de Windows originales para
00:02:49
Windows 10 home professional y Windows
00:02:52
11 que de hecho es donde yo las suelo
00:02:53
comprar para mí mismo estas claves son
00:02:55
bastante más económicas que las que
00:02:57
vende Microsoft porque son claves om o
00:02:59
sea hasa están pensadas para fabricantes
00:03:00
de ordenadores que compran el por mayor
00:03:02
para meter a sus distintos equipos y es
00:03:04
perfectamente legal revenderlas por
00:03:06
mucho que Microsoft no le guste
00:03:07
demasiado Así que pequeño hack para
00:03:09
conseguir Windows original sin necesidad
00:03:11
de instalar un crack en tu ordenador
00:03:13
abajo te dejaré los enlaces para que
00:03:15
puedas ir a la web a comprar las claves
00:03:16
pero no solo eso sino que también te
00:03:18
dejaré un pequeño código de descuento
00:03:19
para que puedas ahorrar algunos euros
00:03:21
gracias a jv gimol por patrocinar este
00:03:23
vídeo y ahora sigamos con el contenido
00:03:25
de hoy
00:03:28
[Música]
00:03:37
hay dos puntos muy importantes que
00:03:38
tenemos que aclarar sobre deeps el
00:03:40
primero es que es una empresa fundada
00:03:41
con el capital de highflyer High flyer
00:03:43
es esta firma de qu trading que tiene el
00:03:45
yang no que funda yang al salir de la
00:03:47
uni lang usó dinero de su firma de
00:03:49
inversión para crear esta empresa por lo
00:03:51
que realmente si bien el gobierno de
00:03:52
China Es verdad que está incentivando la
00:03:54
Inteligencia artificial realmente no es
00:03:56
una empresa que tenga ningún tipo de
00:03:57
afiliación con el gobierno es una
00:03:59
empresa del young o mejor dicho de High
00:04:01
flyer está el gobierno chino de alguna
00:04:03
forma ayudando a deeps Bueno pues la
00:04:05
verdad es que es difícil saberlo o sea
00:04:06
Nosotros ahora mismo no tenemos forma de
00:04:08
Saber esto Pero en principio los planes
00:04:10
de China para incentivar la Inteligencia
00:04:12
artificial son más bien proyectos de
00:04:14
construir centros de datos potenciar la
00:04:16
ia en las universidades Y hacer que las
00:04:17
leyes favorezcan de alguna manera la ia
00:04:20
generativa no que no esté tan
00:04:21
restringido como en Europa que no se
00:04:22
puede hacer nada estas cosas tendrán
00:04:24
efecto a largo plazo en 10 años cuando
00:04:26
tengamos una nueva generación de
00:04:27
estudiantes que sepan pues un montón de
00:04:30
Inteligencia artificial que tengan
00:04:31
educación a nivel top acceso a los
00:04:33
mejores ordenadores Pero bueno ahora
00:04:34
mismo no hay pruebas de que china como
00:04:37
gobierno tenga nada que ver con Deep
00:04:39
seek Deep seek viene de High flyer de
00:04:41
nuestro amigo lang al puro estilo
00:04:42
capitalista americano y lo que han
00:04:44
lanzado en noviembre de 2024 son dos
00:04:46
modelos uno se llama Deep seic R1 y el
00:04:49
otro se llama Deep seic v3 los dos llms
00:04:53
o sea large Language models al estilo de
00:04:55
chat gpt claud gemini o Lama básicamente
00:04:59
son modelos que generan texto y a ver
00:05:01
existen muchos modelos de este tipo pero
00:05:02
no tan buenos como este Mirad existen
00:05:04
pruebas para valorar Qué tan bueno es un
00:05:06
modelo Comparado con otros y aquí podéis
00:05:08
ver algunas de estas pruebas son pruebas
00:05:09
que le ponen desafíos al modelo no tiene
00:05:11
que contestar preguntas resolver
00:05:12
acertijos etcétera etcétera Pues resulta
00:05:15
que en algunas de estas pruebas dipsi
00:05:16
qv3 ahora mismo es mejor que los mejores
00:05:19
que teníamos hasta la fecha superando a
00:05:20
Cloud 3.5 y a gpt 4o podemos ver aquí en
00:05:24
la web oficial de deeps que es mejor en
00:05:26
pruebas de rendimiento como mml redux
00:05:29
que incluye pruebas de conocimiento
00:05:30
general razonamiento lógico y
00:05:32
comprensión avanzada en múltiples temas
00:05:34
como matemáticas historia ciencias y más
00:05:37
tenemos también por ejemplo a Drop que
00:05:39
es discrete reasoning over paragraphs
00:05:41
que mide la capacidad de razonamiento
00:05:43
sobre textos largos donde las respuestas
00:05:45
a veces requieren cálculos combinaciones
00:05:47
de datos o razonamientos lógicos otro
00:05:49
ejemplo de prueba es eer polyglot que
00:05:51
evalúa la capacidad del modelo para
00:05:52
trabajar con múltiples lenguajes de
00:05:53
programación entendiendo y ejecutando
00:05:55
tareas con distintas sintaxis Bueno pues
00:05:57
esto para hacernos una idea lo que nos
00:05:58
dice es que en alguna alunas de estas
00:06:00
pruebas no solo es muy parecido al
00:06:01
rendimiento que tienen otros modelos muy
00:06:03
avanzados como el de chat gpt sino que
00:06:05
en algunos es incluso mejor y esto es
00:06:07
impresionante porque en general no es
00:06:09
tan fácil crear un modelo que sea tan
00:06:11
bueno o sea muy pocas empresas en el
00:06:13
mundo entero lo han conseguido y ese es
00:06:15
el primer motivo por el que deeps es tan
00:06:17
impresionante pero no se termina ahí el
00:06:19
segundo punto interesante es que las
00:06:21
tarifas para usar Este modelo son
00:06:22
bastante más baratas que la competencia
00:06:24
la web para chatear con deeps la típica
00:06:26
web rollo chat gpt Bueno pues esto es
00:06:29
incluso gratis como chat gpt pero la
00:06:31
forma en la que realmente ganan dinero
00:06:32
estas empresas es a través de la Api la
00:06:34
Api es la application programming
00:06:36
interface esto básicamente en cristiano
00:06:38
es una forma de conectar programas entre
00:06:40
ellos Imagínate que tienes una app Como
00:06:42
por ejemplo yo que sé una app de fitness
00:06:44
de entrenamiento personal y quieres que
00:06:46
esta app tenga Inteligencia artificial
00:06:48
por ejemplo pues un chat con un
00:06:49
entrenador personal que en realidad es
00:06:50
una ia y te dice recomendaciones te dice
00:06:52
cómo vas con los ejercicios etcétera
00:06:55
Bueno pues para esta empresa que tienes
00:06:56
tú de aplicaciones de deporte programar
00:06:59
y utar Inteligencia artificial a nivel
00:07:01
de chat gpt o gemini o deeps no está al
00:07:03
alcance de de tu mano vale es algo muy
00:07:05
complejo que necesita mucho dinero de
00:07:07
inversión y muchos servidores para poder
00:07:09
ejecutar toda esa inteligencia Así que
00:07:11
tu mejor opción es conectar tu
00:07:13
aplicación con una de estas
00:07:14
inteligencias artificiales que ya
00:07:16
existen Y ese es el servicio que ellos
00:07:18
proporcionan Ellos tienen las
00:07:19
inteligencias artificiales instaladas y
00:07:21
ejecutadas en un centro de datos de Open
00:07:23
Ai de Google de lo que sea ellos pagan
00:07:25
sus servidores pagan la luz pagan todo y
00:07:27
lo Ejecutan ahí y tú lo que puedes hacer
00:07:29
es es que tu aplicación hable con esos
00:07:31
servidores y Cómo se conectan Bueno pues
00:07:33
utilizando esta Api la Api lo que hace
00:07:35
es que tu aplicación pueda interactuar
00:07:37
directamente con una de estas
00:07:38
inteligencias artificiales es una vía de
00:07:40
comunicación entre dos aplicaciones la
00:07:42
app de deporte le daría una serie de
00:07:43
datos tuyos prompts el historial de
00:07:45
entrenamientos datos biométricos un
00:07:47
montón de cosas más tus consultas y chat
00:07:49
gpt o lo que tenga detrás generaría una
00:07:51
respuesta que sería pues válida para la
00:07:53
aplicación en cuestión O sea que simular
00:07:55
ira este entrenador personal Bueno pues
00:07:56
usar esta Api tiene un precio
00:07:58
evidentemente no es gratis vale Y el
00:08:00
precio se mide por token cada token es
00:08:02
más o menos una palabra generada un
00:08:03
poquito menos ya lo explicamos esto en
00:08:05
el vídeo sobre cómo funciona chat gpt
00:08:06
cuantas más palabra general a ía más se
00:08:08
cobra al dueño de la aplicación este es
00:08:10
uno de los modelos de negocio más
00:08:12
importantes que existe en este tipo de
00:08:14
servicios no como chat gpt etcétera vale
00:08:16
se supone que es uno de los principales
00:08:18
motores que va a hacer que toda esta
00:08:19
industria funcione y que todos también
00:08:21
podamos tener ía tanto es así que Apple
00:08:23
incluso este año conectaría a Siri con
00:08:25
chat gpt para que pueda dar por fin
00:08:27
respuestas inteligentes a ver si es
00:08:28
verdad mientras que los tokens de salida
00:08:30
de chat gpt cuestan 10 por el millón de
00:08:33
tokens en su modelo gpt 4o el estándar
00:08:36
digamos dips con v3 cuesta 1,1 por
00:08:40
millón de tokens unas 10 veces más
00:08:42
barato que chat gpt pero no se termina
00:08:44
ahí vale Esto no es lo más impactante
00:08:46
Mirad estos modelos de Inteligencia
00:08:47
artificial como decíamos antes necesitan
00:08:49
de Super ordenadores con muchísimas
00:08:51
gráficas para poder ejecutarse en
00:08:53
centros de datos con millones de
00:08:55
inversión vale que sería algo muy
00:08:56
difícil de tener en tu casa o incluso en
00:08:58
tu empresa o que es algo en lo que
00:09:00
quizás no te interesa invertir no por
00:09:01
todos los costes que tiene de
00:09:03
infraestructura personal etcétera por
00:09:04
eso chat gpt se ejecuta Pues en los
00:09:06
servidores de Open Ai ahora si tú te
00:09:08
quieres Descargar chat gpt el modelo
00:09:11
Vale y correrlo en tus propios super
00:09:13
ordenadores tampoco podrías porque Open
00:09:15
Ai Pues no te deja descargarlo no te lo
00:09:17
libera hay algunos modelos que sí te lo
00:09:19
permiten Como por ejemplo Lama de Mark
00:09:20
zuckenberg y meta que de hecho es uno de
00:09:22
los mejores para esto y hay muchas
00:09:24
versiones incluso alguno que lo puedes
00:09:25
correr en un portátil o incluso otros
00:09:27
que necesitan un centro de datos entero
00:09:29
para ejecutarlo pero los mejores modelos
00:09:31
del mundo rara vez te los puedes
00:09:32
descargar y ejecutarlos en tu
00:09:33
infraestructura no O sea chat gpt o
00:09:35
gemini de Google solo los puedes usar en
00:09:37
los servidores de cada una de estas
00:09:39
empresas y bueno Esto es algo que para
00:09:40
la industria es normal o sea te imaginas
00:09:42
que gpt fuese libre y gratis y te lo
00:09:44
pudieras bajar y te lo ejecutas en tu
00:09:46
servidor o sea le montaría literalmente
00:09:48
la competencia a chat gpt podrías
00:09:49
modificarlo hacer tu propia versión
00:09:51
tenerlo corriendo en tus servidores para
00:09:52
tu empresa sin pagar nada más que la
00:09:54
electricidad sin tener que pagar el
00:09:55
precio de la Api y todas estas cosas
00:09:57
Bueno pues Agárrate porque resulta que
00:09:59
dips ha liberado de forma Open source y
00:10:02
totalmente gratuita su modelo dips v3 y
00:10:05
R1 o sea literalmente te los puedes
00:10:07
bajar y ejecutarlos en tu centro de
00:10:09
datos Eso sí para el modelo más grande
00:10:10
de dips R1 por ejemplo que tiene 671
00:10:13
miles de millones de parámetros
00:10:14
necesitarías unas 16 gráficas a 100 de
00:10:17
nvidia que tienen unos 80 GB de memoria
00:10:20
cada una sumando en total 1280 GB de
00:10:23
memoria montarte esto te costaría algo
00:10:25
así como medio millón de dólares pero
00:10:27
bueno podrías ejecutar dipsi r1 con todo
00:10:29
su potencial Y esto es una amenaza
00:10:31
bastante grande contra la industria
00:10:33
americana de la Inteligencia artificial
00:10:35
no solo tenemos un modelo mucho más
00:10:36
barato de usar sino que te lo puedes
00:10:38
bajar y usarlo por tu cuenta incluso
00:10:40
personalizarlo Y qué tal está
00:10:42
funcionando a nivel de descargas O sea
00:10:43
hay mucha gente que se lo está
00:10:44
descargando Bueno pues la primera semana
00:10:45
de lanzamiento ha tenido más de un
00:10:47
millón de descargas Esto no es gente que
00:10:49
se haya bajado la app en el móvil o que
00:10:50
se haya registrado en la web y haya
00:10:52
hablado con la con la ia vale esto es
00:10:53
gente que se ha bajado el modelo entero
00:10:56
para ejecutarlo por su cuenta y probarlo
00:10:58
o sea son gente ya técnica avanzada que
00:11:00
tiene la infraestructura para poder
00:11:02
hacerlo en resumen es una ia igual o
00:11:04
mejor que chat gpt aunque ya veremos que
00:11:06
tiene diferencias no es tan poco igual
00:11:07
ni mejor en todo con la que puedes
00:11:09
interactuar de forma más barata e
00:11:12
incluso Te la puedes descargar y
00:11:13
ejecutarla tú mismo cosa que con chat
00:11:15
gpt no puedes hacer esto por sí solo ya
00:11:17
ha sido bastante revuelo dentro de la
00:11:19
industria pero no es todo deeps tiene
00:11:21
algunas otras cosas que son muy
00:11:22
impresionantes una de las cosas de las
00:11:24
que más se habla es de que deeps fue
00:11:26
increíblemente barato de entrenar pero
00:11:28
no solo de entrenar sino que además es
00:11:29
barato de ejecutar no solo se hizo el
00:11:31
entrenamiento con una cantidad de
00:11:32
gráficas bastante pequeña y en un tiempo
00:11:34
sorprendentemente corto sino que también
00:11:36
cuando hicieron R1 el modelo que razona
00:11:38
también gastaron muy poco dinero
00:11:40
respecto a lo que la gente se esperaría
00:11:42
no en crear un modelo de ese tipo pero
00:11:44
luego es que además los propios costes
00:11:45
de operación o sea lo que les cuesta
00:11:47
correr ese modelo en el día a día y la
00:11:49
cantidad de gráficas que se necesitan es
00:11:51
mucho menos de lo que estamos
00:11:52
acostumbrados en otros modelos de
00:11:53
Inteligencia artificial parecidos cómo
00:11:55
hicieron esto Bueno pues con una serie
00:11:57
de mejoras técnicas evoluciones y
00:11:59
optimizaciones que son las que permiten
00:12:00
que sea suficiente el primer gran punto
00:12:03
de deeps es la arquitectura que tiene
00:12:05
detrás los modelos a los que estamos
00:12:07
acostumbrados como yama o gpt se basan
00:12:10
en una red neuronal generalista que se
00:12:11
entrena con un montón de conocimiento de
00:12:13
todo tipo para generar texto sobre
00:12:15
cualquier cosa o cualquier área de
00:12:16
conocimiento chat gpt sí que es verdad
00:12:18
que por ejemplo tiene módulos que le
00:12:19
ayudan a buscar cosas en Google que le
00:12:21
ayudan a hacer cálculos matemáticos Pero
00:12:23
bueno en general cuando generan palabras
00:12:25
lo que tenemos es un gran cerebro que
00:12:27
procesa cada uno de los prompts que pone
00:12:29
el usuario dips Por otra parte se basa
00:12:31
en una arquitectura que se llama mixture
00:12:32
of experts que se podría Traducir como
00:12:35
mezcla de expertos aquí la idea es que
00:12:37
en lugar de tener un gran modelo que se
00:12:39
ejecuta de forma completa cada vez que
00:12:41
vamos a procesar el prompt que escribe
00:12:42
el usuario tenemos como varios modelos
00:12:44
más pequeñitos que están especializados
00:12:46
en distintos temas Esto no es una idea
00:12:47
original de deeps vale No se les ocurrió
00:12:49
a ellos sino que ya se implementó por
00:12:51
ejemplo en un proyecto de Google que se
00:12:52
llama gard o en el modelo mixal e
00:12:54
incluso viene de un paper de 2017 vale
00:12:56
no es una cosa nueva y es una forma de
00:12:58
escalar modelo grandes o sea hacerlos
00:13:00
más grandes llega un momento que al
00:13:01
final si quieres que una red Neal sepa
00:13:03
tantas cosas la mejor manera es dividir
00:13:05
este Cerebro en varios cerebros expertos
00:13:07
como haríamos en la vida real no O sea
00:13:09
si quisiéramos trabajar con muchos temas
00:13:10
distintos montaría un grupo de expertos
00:13:12
en lugar de una sola persona que lo sabe
00:13:14
todo bueno Pues resulta que dips como os
00:13:16
decía está hecho de un montón de
00:13:17
expertos distintos un montón de redes
00:13:19
pero muchísimas Vale entonces lo que
00:13:20
tenemos delante es un enrutador el
00:13:22
enrutador es el que va a elegir quién se
00:13:25
encarga de resolver esa cuestión vale
00:13:26
Entonces nosotros escribimos un prompt
00:13:28
le damos a enter el mensaje le llega a
00:13:30
este enrutador el enrutador se encarga
00:13:31
de analizarlo y le pone una puntuación a
00:13:34
cada uno de los expertos esa puntuación
00:13:36
básicamente lo que dice es qué tan
00:13:37
relacionada está la pregunta con el área
00:13:39
de conocimiento que tiene pues ese
00:13:40
experto en concreto no y en base a eso
00:13:42
elige Cuál es el mejor experto para
00:13:43
contestar una pregunta en concreto
00:13:44
normalmente es más de una red y aquí te
00:13:46
preguntarás vale tenemos distintos
00:13:48
expertos Cómo se decide en Qué es
00:13:50
experta cada red quién lo decide esto
00:13:52
Bueno pues durante el entrenamiento del
00:13:54
modelo acordad siempre que tenemos como
00:13:55
dos fases una en la que el modelo
00:13:57
aprende y otra en el que modelo explica
00:13:59
los conocimientos vale el entrenamiento
00:14:00
es donde está aprendiendo Pues todo no
00:14:02
de cero pues durante el entrenamiento
00:14:03
tenemos una red que va catalogando los
00:14:06
distintos textos de los que está
00:14:07
aprendiendo el modelo y le va diciendo
00:14:08
Pues mira este es de un tema Este es de
00:14:10
otro Este es de otro más Y de esa manera
00:14:11
pues de alguna forma va agrupando los
00:14:13
textos por temas distintos de forma
00:14:14
totalmente automática sin intervención
00:14:16
humana y le va pasando esto a distintas
00:14:18
redes Y de esa manera va diciendo Pues
00:14:19
mira tú te vas a encargar de todos los
00:14:20
textos relacionados con esto tú te vas a
00:14:22
encargar de todos los textos
00:14:23
relacionados con esto otro de esa forma
00:14:25
por ejemplo podemos tener un experto que
00:14:26
sabe Mucho de bioquímica otro que sabe
00:14:28
de polí otro de literatura otro que sabe
00:14:31
hablar como un niño pequeño otro que
00:14:32
sabe Mucho de animales y bueno sería un
00:14:34
poco esa la idea realmente las
00:14:35
divisiones de conocimiento no son tan
00:14:37
tan obvias no son tan simples de
00:14:38
entender pero bueno es para que nos
00:14:40
hagamos una idea esto tiene un efecto
00:14:42
brutal vale porque estamos haciendo
00:14:43
funcionar solo una parte concreta del
00:14:45
modelo para contestar a temas muy
00:14:47
concretos en lugar de todo el modelo al
00:14:48
mismo tiempo en modelos muy grandes como
00:14:50
gpt cuando se generan palabras se usa
00:14:52
todo el modelo a la vez y dentro de todo
00:14:54
ese modelo Pues hay alguna parte que
00:14:56
influye en la respuesta que hace cosas y
00:14:58
otras pues no influy fluyen porque
00:14:59
directamente no se activan pero aún así
00:15:01
estamos usando todo el cerebro a la vez
00:15:03
y eso necesita mucha potencia con el
00:15:05
mixture of expert se selecciona de forma
00:15:07
mucho más específica no lo que se va a
00:15:09
usar en concreto es como tener un
00:15:11
cerebro que se usa todo el tiempo al
00:15:12
100% o que solo usa pues unas partes
00:15:14
concretas para hacer tareas concretas y
00:15:16
eso realmente lo que hace es ahorrar
00:15:17
mucha energía al sistema Por lo cual
00:15:19
necesitamos menos gráficas para ejecutar
00:15:21
el modelo pero aquí realmente el gran
00:15:23
mérito que tiene deeps porque ya os dije
00:15:25
antes que no lo inventaron ellos Esto
00:15:26
vale Es que la arquitectura mixture of
00:15:28
experts es muy difícil de implementar o
00:15:30
sea es muy difícil que funcione bien
00:15:31
nadie hasta ahora había conseguido hacer
00:15:33
un buen modelo con este sistema y ellos
00:15:35
lo consiguieron haciendo que el modelo
00:15:36
tenga primero que nada muchos más
00:15:38
expertos de lo normal de lo que se había
00:15:39
usado hasta ahora y además asegurándose
00:15:42
que cada uno de los expertos no tenga
00:15:43
conocimiento repetido con otros Además
00:15:46
de que cuando se detecta que hay
00:15:47
conocimientos que son como intermedios
00:15:48
entre varios temas Pues hay expertos
00:15:51
especiales que son mixtos vale que saben
00:15:52
como distintos temas a la vez y de esa
00:15:54
forma pues pueden complementar el
00:15:55
conocimiento de uno con otro y estos
00:15:57
expertos mixtos siempre se activan a
00:15:59
cada interacción y por eso mismo un
00:16:01
pequeño detalle vale en la web de deeps
00:16:03
cuando vamos a ver cuántos parámetros
00:16:04
tiene el modelo Ellos dicen que tiene
00:16:07
671 miles de millones de parámetros
00:16:09
estos parámetros es el total entre todos
00:16:11
los expertos pero solo 37 miles de
00:16:13
millones están activados Y esto es
00:16:15
porque cuando se ejecuta la red solo
00:16:17
activa 37 miles de millones vale No
00:16:19
activa más porque selecciona esos
00:16:21
expertos que corresponden con esa
00:16:23
cantidad de parámetros esto es muy
00:16:24
interesante la verdad eh Y es y es eso
00:16:26
no al final es optimización pura y dura
00:16:28
ahora otra optimización que hicieron que
00:16:30
esta es un poco más difícil de entender
00:16:32
fue entrenar el modelo con una precisión
00:16:34
más baja de lo normal en concreto con
00:16:36
fp8 esto ya lo expliqué en mi vídeo
00:16:38
sobre cómo mejoro mi empresa con
00:16:39
Inteligencia artificial donde os hablo
00:16:41
de que cada parámetro tiene una
00:16:43
precisión concreta recordad que los
00:16:45
parámetros en un modelo son las partes
00:16:47
que se van Ajustando durante el
00:16:48
entrenamiento vale sería como si un
00:16:50
modelo es un cerebro genérico cuando lo
00:16:53
entrenamos hay una serie de parámetros
00:16:54
que se van Ajustando que podéis
00:16:55
imaginarlos como pequeñas manivelas
00:16:58
pequeños po dimetros que se van
00:17:00
modificando para configurar el modelo
00:17:02
para que dé el resultado que nosotros
00:17:03
queremos Bueno pues estos parámetros
00:17:05
tienen una precisión que podéis
00:17:06
imaginarla como Pues el número de cifras
00:17:08
que tenemos después de la coma como
00:17:10
estamos en un ordenador estos números se
00:17:12
representan en binario que también si
00:17:13
quieres entender esto tengo un vídeo
00:17:15
sobre cómo funciona el binario y las
00:17:16
puertas lógicas que es muy interesante
00:17:18
Bueno pues fp8 o floating Point 8 es un
00:17:21
formato de binario que te permite
00:17:23
representar un número decimal o sea un
00:17:24
número con coma con una precisión de
00:17:26
ocho cifras binarias este binario es
00:17:28
distinto del que os he explicado en el
00:17:30
canal vale es un binario especial que
00:17:31
tiene un trozo que representa el número
00:17:33
otro que representa el signo si es
00:17:34
positivo o negativo y otro que
00:17:35
representa dónde estaría esa coma un
00:17:37
poco como la anotación científica Vale
00:17:39
entonces tenemos una serie de cifras
00:17:41
binarias y con esto tenemos que
00:17:42
representar los números cuantas más
00:17:43
cifras binarias tenemos más ocupa este
00:17:45
número en memoria pero también más
00:17:47
precisión tiene o sea más numeritos
00:17:49
después de la coma vamos a tener Cuántas
00:17:50
menos cifras binarias tenemos pues ocupa
00:17:52
menos en memoria pero a la vez el número
00:17:54
es mucho menos preciso Por ejemplo si
00:17:55
representá demos el número pi en fp32
00:17:58
tendríamos amos suficientes cifras como
00:18:00
para tener el número 3,14 15 9 27 en fp
00:18:04
166 podríamos tener la precisión para
00:18:06
representar solo el 3,14 y en fp8
00:18:09
probablemente 3,1 o sea como podéis ver
00:18:11
es muy impreciso pero el número ocupa
00:18:13
menos en memoria Qué significa esto para
00:18:14
el modelo de Inteligencia artificial
00:18:16
Bueno pues si tenemos este potenciómetro
00:18:18
si el número es más pequeño sería como
00:18:20
tener menos opciones vale tiene como
00:18:22
menos ajustes con fp32 tendríamos un
00:18:24
montón de ajustes bastante finos con
00:18:26
fp16 tendríamos menos y con fp8 pues
00:18:29
menos aún entonces el modelo es menos
00:18:30
preciso Pues sí es menos preciso pero
00:18:32
han encontrado la forma de que usando en
00:18:34
ciertas partes fp32 el modelo sigue
00:18:37
siendo muy preciso y ocupa menos espacio
00:18:39
en memoria y además el tiempo de
00:18:41
entrenamiento es mucho más rápido esto
00:18:43
se conoce como mixed precision framework
00:18:45
o marco de trabajo de precisión mixta
00:18:47
porque tenemos distintas precisiones en
00:18:48
distintas partes vamos que han buscado
00:18:50
recortar de donde se podía tanto en
00:18:52
memoria como en tiempo pero afectando lo
00:18:53
mínimo posible al resultado lo que viene
00:18:55
a ser optimizar lo que no hacen en los
00:18:57
juegos de hoy en día otras dos cosas que
00:18:59
hace el modelo que son un poquito más
00:19:00
complicadas vale es que primero que nada
00:19:02
en la capa de atención tiene múltiples
00:19:04
cabezas por lo que puede prestar
00:19:05
atención a varios términos a la vez y
00:19:07
analizar la frase desde distintos
00:19:08
ángulos esto ya para entenderlo mejor
00:19:10
tendrías que mirarte mi vídeo de cómo
00:19:11
funciona chat gpt que ahí te lo explico
00:19:13
de forma estupenda y la otra cosa es que
00:19:15
puede generar múltiples tokens a cada
00:19:17
pasada mientras que modelos como gpt van
00:19:19
generando un token a la vez pues este
00:19:21
haría una predicción múltiple o sea
00:19:23
sacaría varios tokens de una sola tirada
00:19:24
Y esto se ha visto que no da peores
00:19:26
resultados y además es más eficiente o o
00:19:28
sea ayuda a que el modelo se ejecute más
00:19:30
rápido y con menos energía Entonces por
00:19:32
estas cuatro cosas el mixture of experts
00:19:35
el usar fp8 la capa de atención con
00:19:37
múltiples cabezas y la generación
00:19:39
múltiple de tokens deeps es mucho más
00:19:41
rápido y barato que la competencia y
00:19:44
ahora bien hasta este punto no han
00:19:45
inventado nada realmente nuevo pero hay
00:19:48
que entender que esto en el ámbito de la
00:19:49
Inteligencia artificial es completamente
00:19:51
normal vale Así es como está
00:19:53
evolucionando la tecnología hoy en día
00:19:54
la Inteligencia artificial se creó en el
00:19:56
mundo académico o sea en el mundo de las
00:19:57
universidades o sea se basa en proyectos
00:19:59
de investigación de universidades todo
00:20:01
este conocimiento investigación y
00:20:03
pruebas son básicamente públicos o sea
00:20:06
puedes leer sobre ellos en muchas
00:20:08
publicaciones y te explican exactamente
00:20:10
cómo funcionan muchas de las tecnologías
00:20:12
que utilizan modelos de difusión
00:20:13
Transformers redes neuronales todo esto
00:20:15
viene de software de código abierto que
00:20:17
los investigadores y los programadores
00:20:19
comparten de forma totalmente gratuita a
00:20:21
ver las empresas evidentemente se
00:20:22
aprovechan de esto para crear luego sus
00:20:24
tecnologías privadas Como por ejemplo
00:20:26
Google pero el caso más extremo sería el
00:20:28
Open Ai que es una empresa que empezó
00:20:30
con la idea de investigar y liberar el
00:20:32
conocimiento de forma abierta libre y
00:20:34
gratuita vamos que la empresa se llama
00:20:36
openi por algo y lo que pasa es que con
00:20:38
el tiempo pues han desarrollado alguno
00:20:40
de los modelos más avanzados del mundo
00:20:42
que hacen cosas que muy pocos otros en
00:20:44
el mundo pueden hacer y esto pues lo han
00:20:46
privatizado y no lo comparten con nadie
00:20:47
o sea los detalles de cómo funciona eso
00:20:49
por dentro no lo sabe nadie pero
00:20:51
realmente la tecnología que tiene detrás
00:20:53
todo el conocimiento de cómo conseguirlo
00:20:55
Es algo que de alguna forma es público
00:20:56
no es algo que puedes llegar a leer que
00:20:58
puedes llegar a implementar Y si eres lo
00:20:59
suficientemente bueno puedes llegar a
00:21:01
montar un modelo como chat gpt en tu
00:21:03
casa Bueno en tu casa no pero ya me
00:21:04
entiendes de todos modos que deeps haya
00:21:06
conseguido esto es bastante
00:21:07
impresionante pero no se termina ahí el
00:21:09
segundo punto impresionante que ha
00:21:10
conseguido deeps es el modelo R1 Esto sí
00:21:13
que está a otro nivel R1 es un modelo
00:21:16
que razona Mirad con el tiempo las
00:21:18
empresas como Open Ai se dieron cuenta
00:21:19
de que los modelos no son buenos
00:21:21
resolviendo cualquier tipo de problema
00:21:23
como por ejemplo acertijos lógicos hay
00:21:25
un vídeo muy bueno de computer file
00:21:26
donde Mike pound de la Universidad de
00:21:28
nottingham nos explica que por ejemplo
00:21:30
si le decimos a chat gpt que tenemos un
00:21:32
recuadro rojo con uno arriba de color
00:21:34
azul y otro arriba de color amarillo y
00:21:36
movemos el azul arriba de todo y además
00:21:38
añadimos otro verde por encima chat gpt
00:21:41
no es capaz de decirte el orden Exacto
00:21:42
final de estos cuadrados y esto es
00:21:44
porque para resolver este problema hay
00:21:46
que seguir una serie de pasos imaginarte
00:21:48
la escena y razonar no Cuál va a ser el
00:21:50
orden final de los cuadrados no puedes
00:21:51
simplemente improvisar sobre la marcha
00:21:53
este razonamiento cuando lo hace un
00:21:55
humano lo hace a través de una serie de
00:21:56
pasos muevo este luego cambio este luego
00:21:58
Este vale Y este proceso se llama cadena
00:22:01
de pensamiento Chain of thought Bueno
00:22:03
pues para eso Open aa inventó chat gpt
00:22:06
o1 que justamente lo que hace es ir
00:22:08
desarrollando cada uno de los pasos que
00:22:10
necesita el problema para resolverse
00:22:12
hasta este momento Este era uno de los
00:22:13
modelos más avanzados del mundo en
00:22:15
Muchas tareas complejas en muchas de las
00:22:17
pruebas de las que hablamos antes ahora
00:22:19
deeps con R1 se acerca tanto a chat gpt
00:22:21
o1 que vamos o sea da hasta miedo y
00:22:24
además lo hicieron con muy poco dinero y
00:22:26
muy poco poder de cálculo cómo lo
00:22:27
consiguieron Bueno pues realmente de una
00:22:29
forma bastante sencilla y estúpida para
00:22:31
entrenar un modelo de razonamiento como
00:22:33
chat gpt o1 sabemos que Open Ai utiliza
00:22:35
el método de reinforcement learning by
00:22:38
human feedback o sea cogen chat gpt 4
00:22:40
vale el que ya tienen y empiezan a hacer
00:22:42
lo que se llama fine tuning y de esta
00:22:44
manera pues van Ajustando y Ajustando y
00:22:45
Ajustando el modelo hasta que acaba
00:22:47
respondiendo de una forma concreta en el
00:22:49
caso del razonamiento justamente lo que
00:22:51
quieren es que el modelo saque un texto
00:22:53
muy largo a través del cual vaya
00:22:54
razonando y vaya haciendo toda esta
00:22:56
cadena de pensamiento y esto lo siguen
00:22:58
pues pasándole ejemplos a chat gpt vale
00:23:01
hay humanos que hacen ejemplos de cómo
00:23:03
razonan un problema y esto se lo se lo
00:23:05
pasan a chat gpt para que aprenda a
00:23:06
hacerlo de esta manera el tema del rl hf
00:23:09
ya lo vimos en el vídeo sobre cómo
00:23:10
funciona chat gpt pero bueno básicamente
00:23:13
en lo que consiste es que hay un gran
00:23:14
grupo de humanos que evalúan los
00:23:16
resultados del modelo o sea el modelo va
00:23:17
generando cosas y luego tenemos una
00:23:19
serie de humanos que le van diciendo qué
00:23:21
respuestas son buenas qué respuestas son
00:23:22
malas Cuáles son más amigables Cuáles no
00:23:25
etcétera etcétera entonces con un gran
00:23:27
set de respuestas de calidad creado por
00:23:28
el feedback de los humanos Se entrena
00:23:30
otra red que es capaz de decir si una
00:23:32
respuesta es buena o no es buena según
00:23:34
el criterio del humano no pero bueno
00:23:35
total para que te hagas una idea que hay
00:23:36
seres humanos ahí que están
00:23:38
interactuando con la ia están generando
00:23:40
resultados para que la ia aprenda de
00:23:41
ellos vale Este sería un poco el sistema
00:23:43
de Open Ai Bueno pues lo que ha hecho
00:23:45
Deep seek ha sido decir esto es muy caro
00:23:47
esto no lo vamos a poder hacer así que
00:23:49
vamos a hacerlo como se hacía de toda la
00:23:50
vida vamos a usar el reinforcement
00:23:52
learning o sea aprendizaje por refuerzo
00:23:55
pero sin humanos o sea todo automático
00:23:58
Cómo funciona esto cómo lo hicieron
00:24:00
Bueno pues para entrenar a R1 primero
00:24:02
que nada partieron de v3 O sea ya tenían
00:24:04
el deeps v3 y dijeron vamos a crear en
00:24:06
base a esto un modelo que razone y pueda
00:24:09
resolver problemas complejos cómo lo
00:24:10
vamos a hacer Bueno pues vamos a elegir
00:24:12
una serie de problemas complejos de los
00:24:13
cuales tenemos una una respuesta que es
00:24:15
determinista o sea podemos chequear
00:24:18
fácilmente que la respuesta es correcta
00:24:20
o no Como por ejemplo un acertijo un
00:24:22
problema matemático un código de
00:24:24
programación que cuando lo ejecutas te
00:24:25
da un resultado x y bueno distintas
00:24:27
áreas en las cuales podemos poner Este
00:24:29
modelo a prueba y podemos comprobar si
00:24:31
ese resultado está bien o está mal
00:24:33
entonces básicamente lo que hacen es
00:24:34
ponerle estas cuestiones a deeps y deeps
00:24:37
tiene que generar respuestas por su
00:24:38
cuenta vale tiene que contestar y existe
00:24:41
un sistema que evalúa qué tan bien o qué
00:24:43
tan mal está esa respuesta o sea si se
00:24:44
acerca más al resultado que necesitamos
00:24:46
o si se aleja mucho y a estas pues les
00:24:49
pone un positivo no entonces el modelo
00:24:51
recoge ese feedback y dice vale esta
00:24:53
respuesta se acerca más a lo que tengo
00:24:55
que decir y vuelve a generar otras
00:24:56
respuestas pero condicionado con este
00:24:58
feedback genera las nuevas respuestas y
00:25:00
el software vuelve a evaluar Pues mira
00:25:02
ahora esta se parece aún más a lo que yo
00:25:04
espero y le pone pues una puntuación
00:25:06
positiva Entonces el modelo pues lo
00:25:07
vuelve a hacer y así sucesivamente
00:25:09
muchas veces hasta que al final consigue
00:25:12
contestar a la pregunta de forma
00:25:13
correcta vamos que no se le está
00:25:15
explicando a deeps cómo tiene que pensar
00:25:17
o no se le está dando ejemplos de Cómo
00:25:19
resolver los problemas sino que
00:25:21
simplemente cuando da una respuesta que
00:25:22
más o menos está bien que va en buena
00:25:24
dirección pues esto se le da un punto
00:25:26
extra Y en este proceso no hay No hay
00:25:28
ninguna intervención de ningún humano
00:25:29
todo esto es automático y haciendo esto
00:25:31
durante mucho tiempo con muchos casos al
00:25:32
final el modelo aprendió a razonar y la
00:25:35
parte impresionante de todo esto es que
00:25:36
nadie se esperaba que eso funcionase de
00:25:38
hecho fueron viendo durante la fase de
00:25:39
entrenamiento durante la fase de fine
00:25:41
tuning que el modelo de repente iba
00:25:43
haciendo respuestas cada vez más largas
00:25:44
y más complejas lo cual se iba acercando
00:25:46
cada vez más a un razonamiento Y de esa
00:25:48
manera totalmente automática sin humanos
00:25:51
sin nada con el modelo probando a ver si
00:25:53
funcionan las respuestas Pues fue
00:25:55
aprendiendo aprendiendo aprendiendo
00:25:56
hasta conseguir resultados que están al
00:25:57
nivel de los de chat gpt o sea es
00:26:00
totalmente increíble esto tan increíble
00:26:02
que incluso han acusado a dips de
00:26:04
destilar el conocimiento de chat gbt Qué
00:26:06
significa destilar bueno Pues
00:26:08
básicamente preguntarle cosas a chat gbt
00:26:10
que chat gbt responda y pasarle esas
00:26:12
respuestas a dips para que aprenda
00:26:14
responder como chat gpt pero esto no hay
00:26:16
pruebas de que se haya hecho vale o sea
00:26:18
en principio el sistema que han
00:26:19
utilizado es este que os acabo de contar
00:26:20
el reinforce learning totalmente
00:26:22
automatizado ahora una cosa importante
00:26:24
vale Y es que tanto v3 como r1 no fueron
00:26:27
entrenados con el esfuerzo de humanos y
00:26:29
por eso chat gpt es mejor en cuanto a
00:26:31
crear respuestas que son más agradables
00:26:33
suenan más humanas son más creativas es
00:26:35
mejor creando historias y en general
00:26:37
para las tareas que necesitan una cierta
00:26:38
creatividad mientras que deeps como
00:26:40
tiene ese entrenamiento tan basado en
00:26:42
problemas matemáticos y problemas
00:26:43
lógicos es mejor para tareas
00:26:44
industriales problemas lógicos y de
00:26:47
carácter más científico aún así a mí me
00:26:49
parece una locura que exista un modelo
00:26:51
como deeps R1 hecho con este proceso y
00:26:53
que tenga los resultados que tiene que
00:26:55
haya sido tan barato de entrenar pero
00:26:57
sobre todo que sea gratis vale porque tú
00:26:59
te puedes descargar R1 y correrlo en tu
00:27:01
super ordenador como decíamos antes
00:27:03
cualquier Universidad o cualquier
00:27:05
empresa con la suficiente
00:27:06
infraestructura puede ejecutarlo si
00:27:07
quiere y modificarlo y entrenarlo para
00:27:10
que haga lo que ellos quieren volvemos a
00:27:12
la misma pregunta cómo ganan dinero si
00:27:13
lo dan todo gratis Bueno pues este es
00:27:14
uno de los temas que tratamos largo y
00:27:16
tendido en mi libro en el capítulo sobre
00:27:18
el software libre pero bueno básicamente
00:27:20
al liberar el modelo lo que consiguen Es
00:27:22
que la comunidad les ayude a mejorar el
00:27:24
producto gana mucha popularidad porque
00:27:26
vamos esto ha hecho ruido por todas
00:27:27
partes partes pero la mayoría de gente a
00:27:30
la hora de la verdad no va a querer
00:27:31
bajárselo y ejecutarlo en su propio
00:27:33
centro de datos sino que directamente lo
00:27:35
van a correr en su servidores y van a
00:27:36
pagar el servicio es que les sale más
00:27:38
barato básicamente otra cosa bastante
00:27:40
astuta que ha hecho deeps son los
00:27:41
modelos destilados que son modelos más
00:27:43
pequeños versiones más pequeñas que
00:27:45
puedes correr en tu propio ordenador y
00:27:47
que en realidad no están basados en
00:27:48
deeps sino que son otros modelos Como
00:27:50
por ejemplo yama y tienen un concepto
00:27:51
muy distinto esto por cierto los veremos
00:27:53
en otro vídeo en el canal vale donde
00:27:55
probaremos deeps en mi ordenador y en
00:27:57
ese vídeo pues os explicaré más en
00:27:58
detalle Cómo funciona el tema pero ahora
00:28:00
os quiero contar lo que para mí es lo
00:28:02
más impresionante que ha hecho dips lo
00:28:03
más complicado de todo y es entrenar
00:28:06
Este modelo en Hardware que en teoría no
00:28:08
tiene la potencia para hacerlo en 2023
00:28:11
el gobierno de los Estados Unidos creó
00:28:12
una serie de restricciones para que
00:28:14
nvidia no pudiese vender libremente
00:28:16
tarjetas gráficas en China no me refiero
00:28:18
a la típica 4080 o 4090 que con un poco
00:28:21
de suerte tendréis dentro de vuestro PC
00:28:23
de casa sino que estoy hablando de
00:28:24
gráficas especiales las H100 las H100
00:28:27
son gráficas que no puedes comprar así
00:28:29
como así vale son gráficas para empresas
00:28:31
y para organizaciones que necesitan un
00:28:33
gran poder de cálculo están pensadas
00:28:34
para cálculo científico avanzado
00:28:36
simulaciones modelos e Inteligencia
00:28:39
artificial son la gama de producto Más
00:28:41
alto que tiene envidia vale para que te
00:28:42
hagas una idea y en concreto estas H100
00:28:44
son las que se usan para entrenar
00:28:45
modelos como chat gbt Bueno pues estas
00:28:47
restricciones lo que hacen es que estas
00:28:49
gráficas se puedan vender en China pero
00:28:52
en una versión un poquito menos potente
00:28:54
en cuanto a Potencia de cálculo pero
00:28:56
tienen otra restricción que es bastante
00:28:58
más grande y es la de la memoria para
00:28:59
entrenar una Inteligencia artificial
00:29:01
necesitamos un montón de gráficas
00:29:02
conectadas entre ellas esto se hace para
00:29:04
combinar el poder de cálculo y para
00:29:06
combinar este poder también necesitamos
00:29:08
que compartan datos de lo que están
00:29:10
trabajando en todo momento de la forma
00:29:11
más rápida posible por ejemplo en
00:29:13
concreto la H100 es una caja que dentro
00:29:15
tiene ocho chips o sea ocho gráficas
00:29:17
distintas y estas tienen que hablar muy
00:29:19
rápido entre ellas bueno Pues resulta
00:29:21
que la versión China tiene la velocidad
00:29:22
de comunicación entre gráficas limitada
00:29:24
mientras que la H100 puede mandar entre
00:29:27
600 y 900 GB de datos por segundo la
00:29:30
versión china solo puede mandar 300 GB
00:29:32
por segundo luego la lectura de la
00:29:34
propia memoria por parte de la Gráfica
00:29:35
la memoria que tiene cada una de las
00:29:37
gráficas pasa de 3,35 tb en la versión
00:29:40
americana a 1,6 tb en la versión china
00:29:43
Por otra parte la H100 americana llega a
00:29:45
más de 400 teraflops de cálculo de fp16
00:29:49
mientras que la versión China tiene algo
00:29:50
así como la mitad unos 200 teraflops
00:29:53
Aunque en fp8 sigue siendo igual de
00:29:55
potente ahora ya sabéis por qué lo han
00:29:56
entrenado usando fp8 esta versión china
00:29:58
se llama h800 y el objetivo de todo esto
00:30:01
es que china no pueda crear proyectos de
00:30:03
Inteligencia artificial tan avanzados
00:30:05
como los que se crean en el resto del
00:30:06
mundo Bueno pues deeps usó 2048 gráficas
00:30:09
h800 para entrenar su modelo có hicieron
00:30:12
para conseguir estos resultados a pesar
00:30:14
de no tener las H100 que se venden en
00:30:15
Estados Unidos Bueno pues Agárrate
00:30:17
porque ahora es cuando viene lo más
00:30:19
impresionante de toda esta historia como
00:30:21
os decía antes la velocidad con la que
00:30:22
las gráficas hablan entre ellas es un
00:30:24
problema no son suficientemente rápidas
00:30:26
como para conseguir un en rendimiento
00:30:28
Así que le dieron unas cuantas vueltas
00:30:29
al problema y pensaron Qué pasaría si
00:30:31
creamos un sistema de comunicación entre
00:30:33
gráficas programado desde cero por
00:30:36
nosotros que intente aprovechar al
00:30:38
máximo ese ancho de banda que tenemos
00:30:40
podríamos por ejemplo comprimir los
00:30:41
datos ya sabéis que el típico archivo
00:30:43
zip o rar que está comprimido ocupa
00:30:45
menos espacio en memoria respecto al
00:30:47
archivo original Bueno pues esto sería
00:30:48
un poco lo mismo y si comprimimos los
00:30:50
datos antes de mandarlos entre gráficas
00:30:52
y qué más podemos hacer Bueno pues por
00:30:54
ejemplo montar un sistema que en lugar
00:30:55
de esperar a que terminen los cálculos
00:30:57
vaya andando ya datos a otras gráficas
00:30:59
Para aprovechar el tiempo otra cosa que
00:31:01
podríamos mirar es qué datos hay de la
00:31:03
otra parte para solo mandar lo que hace
00:31:04
falta y no volver a enviar partes que ya
00:31:06
se han enviado por error Total que se
00:31:08
montaron un software bastante complejo
00:31:10
muy inteligente que intenta aprovechar
00:31:12
este ancho de banda al máximo con estos
00:31:14
300 GB por segundo Y de esa manera
00:31:16
consiguieron que comunique de forma
00:31:17
mucho más rápido optimizando lo todo lo
00:31:19
posible y consiguiendo resultados
00:31:21
parecidos a la versión americana pero
00:31:22
esto realmente no es fácil vale o sea
00:31:24
para programar gráficas de nvidia
00:31:26
Normalmente se usa un sistema que se
00:31:27
llama kuda cuda es la forma estándar de
00:31:29
hablar con la Gráfica de envidia para
00:31:31
poder pedirle que haga cálculos pero
00:31:32
claro cuda tiene pues una serie de
00:31:34
limitaciones no puedes pedir a la
00:31:35
Gráfica cualquier cualquier cosa Vale
00:31:38
para hacer cosas un poco raras envidia
00:31:39
tiene un lenguaje de programación muy
00:31:41
complicado de bajo nivel que necesita
00:31:43
mucho conocimiento No solo del lenguaje
00:31:45
sino también de cómo funciona una
00:31:46
gráfica en sí Y ese lenguaje se llama
00:31:48
ptx ptx No es para cualquiera vale
00:31:51
complica mucho las cosas y hace falta un
00:31:52
equipo con mucho conocimiento para poder
00:31:54
usarlo Bueno pues lo que hizo deeps fue
00:31:56
usar ptx para que una parte de la
00:31:58
Gráfica vale una parte de los núcleos 20
00:32:00
de los 132 SMS que tiene la tarjeta
00:32:02
gráfica se usen exclusivamente para
00:32:04
correr este código especial encargado de
00:32:07
comprimir los datos y enviarlos a través
00:32:08
de la memoria vamos optimizar las
00:32:10
comunicaciones Esto es algo que repito
00:32:12
es imposible hacer con kuda y no es para
00:32:14
cualquiera tampoco vale realmente tienes
00:32:15
que saber mucho para poder hacer algo
00:32:17
por el estilo y deeps lo consiguió y
00:32:19
esto realmente ha sido muy polémico
00:32:21
Porque mientras que las empresas están
00:32:23
invirtiendo en mejorar las gráficas
00:32:24
comprar últimos modelos de nvidia que
00:32:26
son un poco más rápidos gráficas que son
00:32:28
un poco más potentes gráficas que hablan
00:32:30
un poco más rápido entre ellas y en
00:32:31
general invertir en escalar el Hardware
00:32:33
vale tener mejor Hardware para que los
00:32:35
modelos sean mejores pues dips al final
00:32:37
de forma forzada nos está demostrando
00:32:39
que optimizando el software optimizando
00:32:41
las gráficas aprovechando mejor lo que
00:32:42
ya tenemos podemos conseguir resultados
00:32:44
increíbles y esto En parte hizo que los
00:32:46
inversores pierdan un poco la fe en el
00:32:48
crecimiento de envidia haciendo que
00:32:50
también la empresa caiga en bolsa esta
00:32:51
caía en bolsa hasta un cierto punto es
00:32:53
normal no porque los mercados reaccionan
00:32:54
super rápido a este tipo de noticias no
00:32:56
significa que la empresa realmente haya
00:32:58
bajado las ventas de forma directa pero
00:33:00
sí que nos da mucho que pensar y bueno
00:33:02
Después de todo esto yo creo que no cabe
00:33:03
duda de que deeps para bien o para mal
00:33:05
es impresionante a muchos niveles es un
00:33:07
antes y un después en el mundo de la ia
00:33:09
y es un modelo a seguir en muchos
00:33:11
aspectos es impresionante que esto haya
00:33:13
ocurrido en China o sea realmente es tan
00:33:15
raro que haya pasado en China en
00:33:16
concreto Bueno pues en mi opinión no O
00:33:18
sea china es un país donde hay mucha
00:33:20
gente mucha gente muy preparada con
00:33:22
mucho talento hay universidades con
00:33:24
muchos recursos y hay empresas que
00:33:25
tienen mucho dinero mucho capital así
00:33:27
que me parece tan tan raro que esto
00:33:29
pueda llegar a pasar de hecho china es
00:33:31
una potencia en Inteligencia artificial
00:33:32
desde hace muchos años tienen centros de
00:33:34
datos tienen grandes empresas
00:33:36
tecnológicas y en general en algunos
00:33:38
aspectos incluso están más avanzados
00:33:40
respecto a lo que es Estados Unidos
00:33:42
ahora la gran desventaja que tiene China
00:33:43
respecto a Estados Unidos y esto es un
00:33:45
punto clave de hecho voy a hacer un
00:33:46
vídeo sobre este tema es que no puede
00:33:48
fabricar chips tan avanzados esto es
00:33:50
porque las fábricas más avanzadas del
00:33:52
mundo están en Taiwán Estados Unidos
00:33:54
Corea del Sur y algunos sitios más
00:33:56
países que son aliados de Estados Unidos
00:33:58
a los cuales se les ha prohibido
00:34:00
compartir conocimientos maquinaria y
00:34:02
otro tipo de cosas con China si china
00:34:04
quiere chips tiene que pasar por caja
00:34:06
comprarlos pagarlos e incluso sufrir
00:34:09
restricciones como la que tiene con
00:34:10
envidia no que no puede comprar gráficas
00:34:12
igual de potentes que las que se venden
00:34:14
en el resto del mundo si no fuera por
00:34:16
eso si no fuera porque china no puede
00:34:17
fabricar chips como los que fabrica amd
00:34:19
Apple Sony Intel nvidia y muchas más
00:34:22
pues es muy probable que las cosas
00:34:23
fueran muy distintas y por eso Estados
00:34:25
Unidos juega la carta que tiene vale que
00:34:27
es poner restricciones comerciales están
00:34:29
habiendo restricciones Incluso en cuanto
00:34:32
a intercambios de estudiantes en
00:34:33
universidades en cuanto a compartir
00:34:35
conocimientos entre universidades de
00:34:37
China y Estados Unidos para evitar que
00:34:39
china pueda tener acceso a esas
00:34:40
tecnologías que tiene Estados Unidos
00:34:42
porque como os decía antes la ía viene
00:34:44
del mundo universitario el mundo de la
00:34:45
investigación que es un mundo donde el
00:34:47
conocimiento se comparte y se desarrolla
00:34:49
en conjunto independientemente del país
00:34:51
donde estés O sea todos trabajan para
00:34:53
avanzar a nivel global sin importar si
00:34:55
estás en China en Estados Unidos en
00:34:56
Taiwán o donde sea ahora al ver que
00:34:58
china es una amenaza para la industria
00:35:00
de la Inteligencia artificial una
00:35:01
industria que lidera Estados Unidos el
00:35:03
gobierno quiere poner todas las trabas
00:35:05
que pueda a mí personalmente Y esta es
00:35:06
mi opinión vale la comparación que se
00:35:08
está haciendo con la guerra fría con la
00:35:10
carrera espacial y todo esto a mí
00:35:11
personalmente no me gusta no la veo tan
00:35:13
parecida realmente vale porque comparar
00:35:15
a China con la unión soviética creo que
00:35:17
es un poco estúpido a veces la gente
00:35:19
llega a pensar que china está por detrás
00:35:20
cuando tienen empresas como Huawei que
00:35:23
hacen productos increíbles y que
00:35:24
literalmente han tenido que banear la
00:35:26
porque prácticamente toda la
00:35:27
infraestructura de redes era de Huawei
00:35:29
incluyendo Estados Unidos O sea Estados
00:35:31
Unidos no podía competir literalmente
00:35:33
con Huawei o por ejemplo aplicaciones
00:35:35
como tiktok que tiene un algoritmo que
00:35:36
desde el principio ha demostrado que
00:35:38
engancha muchísimo y que está a la
00:35:39
altura de las redes sociales americanas
00:35:41
Como por ejemplo Instagram Como por
00:35:43
ejemplo Facebook y que también la han
00:35:44
baneado aunque Bueno ahora está como en
00:35:46
un periodo de gracia a ver qué pasa o
00:35:48
incluso los coches chinos a los cuales
00:35:49
se les está poniendo aranceles y así con
00:35:51
muchas otras cosas que solo nos
00:35:52
demuestran que china es igual o más
00:35:54
competitiva a nivel de productos de
00:35:56
tecnología que Estados Unidos y que la
00:35:57
única forma de que no se quede con estos
00:35:59
mercados es poniendo restricciones yo
00:36:01
creo que Estados Unidos sigue siendo
00:36:02
líder en ciertas cosas de momento pero
00:36:04
que realmente se está aferrando a la
00:36:06
única carta que puede jugar para
00:36:08
mantener El dominio de las pocas áreas
00:36:10
en las que todavía tiene cierto control
00:36:12
del mercado y por eso todos estos baneos
00:36:14
con la ia está pasando Exactamente lo
00:36:16
mismo pero bueno Este es un tema que da
00:36:18
para un debate muy largo Yo también en
00:36:19
este vídeo me quería centrar en los
00:36:21
logros tecnológicos en todo aquello que
00:36:23
aporta a nivel tecnológico deeps y no
00:36:25
tanto en un debate de China contra
00:36:26
Estados Unidos pero sí que me gustaría
00:36:28
hacer un vídeo hablando de los chips
00:36:29
porque realmente es el tema más caliente
00:36:31
es una tecnología mucho más difícil de
00:36:33
dominar y es realmente el punto de olor
00:36:35
que tiene China mucho más allá de la
00:36:36
Inteligencia artificial Lo que pasa que
00:36:38
es tan complejo que muchas veces pues no
00:36:40
nos hablan de él no porque hace falta
00:36:42
tener un conocimiento más profundo para
00:36:43
entender realmente Dónde está el
00:36:45
problema no a la hora de fabricar estos
00:36:46
chips pero quiero hacer un vídeo sobre
00:36:48
el tema así que si te interesa Este
00:36:49
vídeo Dímelo abajo en los comentarios en
00:36:51
fin y aquí nos quedamos si te ha gustado
00:36:53
este vídeo ya sabes déjame una manito
00:36:54
para arriba suscríbete al Canal y nos
00:36:55
vemos en el próximo vídeo
00:37:04
for
00:37:10
[Música]

Etiquetas

Liang We Feng
trading cuantitativo
inteligencia artificial
Deep Seic
High Flyer
mercados financeiros
Nvidia
modelo de IA
open source
optimización de datos