Lo que no te contaron de DEEPSEEK: La IA China
Resumen
TLDRLiang We Feng era un estudante de enxeñaría que se interesou polas finanzas e fundou High Flyer, unha firma de investimento baseada en trading cuantitativo. En 2021, anticipou a revolución da intelixencia artificial ao adquirir moitas gráficas de Nvidia. En 2023, fundou Deep Seic, lanza un modelo de IA en 2024 que supera aos modelos estadounidenses, xunto cunha nova arquitectura que optimiza a comunicación entre gráficas, todo vendido a tarifas máis baratas e que se pode descargar. Este avance representa un cambio significativo na industria da IA, destacándose pola súa economía e accesibilidade.
Para llevar
- 🚀 Liang We Feng destacou en finanzas desde a universidade.
- 💻 Fundou a firma de investimento High Flyer centrada en trading cuantitativo.
- 📈 Deep Seic lanzou un modelo de IA que superou a varios competidores de EE. UU.
- 🔍 A compañía ofrece tarifas de uso moito máis baratas que os seus rivais.
- 📥 Os modelos de Deep Seic son de código aberto e pódense descargar.
- ⚙️ Utilizan un innovador sistema para maximizar a comunicación entre gráficas.
- 🏆 A firma converteuse na cuarta de China, xestionando 8000 millóns de dólares en activos.
- 👩🎓 Formar grupos de estudantes para aprender sobre inversións pode ser clave para o éxito persoal.
- 📊 O uso de machine learning en investimentos abriuse camiños novos e emocionantes.
- 🧠 A nova arquitectura de Deep Seic optimiza a eficiencia do seu modelo de IA.
Cronología
- 00:00:00 - 00:05:00
Liang We Feng era un estudante de enxeñaría na universidade de Seyang, China, onde desenvolveu unha paixón polas finanzas. Durante os seus anos de estudante, se decatou de que para obter ingresos significativos, debía explorar novos temas, o que o levou a formar un grupo para aprender sobre mercados financeiros e, posteriormente, armarse coas ferramentas do quant trading, implementando modelos matemáticos para a automatización das transaccións de bolsa.
- 00:05:00 - 00:10:00
No ano 2016, Liang We Feng fundou High Flyer, unha firma de investimento que utilizaba decisións automatizadas baseadas en computadores, logrando que esta se convirtise na cuarta firma de China, manexando 8000 millóns de dólares en activos. Liang tiña o soño de aplicar a Intelixencia Artificial no ámbito financeiro e, en 2021, investiu en miles de tarxetas gráficas de Nvidia para desenvolver este concepto. En 2023, lanzou Deep Seic, un modelo de IA que rapidamente causou revuelo por competir con as grandes tecnoloxías existentes.
- 00:10:00 - 00:15:00
Deep Seic, co seu lanzamento en xullo de 2023, foi recibido con gran interese, xa que se considera que o desenvolvemento aestá por riba dos modelos de IA existentes en EEUU. O lanzamento dunha IA cun orzamento baixo pero con rendemento elevado provocou preocupación tanto no sector tecnolóxico como entre gobernos. Este vídeo pretende xustificar a relevancia de Deep Seic e analizar como este novo modelo integrou a IA para mellorar as finanzas e mercados.
- 00:15:00 - 00:20:00
Deep Seic foi financiado a partir de High Flyer, e non ten afiliación co goberno chino, a pesar do respaldo que este ofrece á Intelixencia Artificial. A firma lanzou dous modelos, Deep Seic R1 e Deep Seic V3, que compiten directamente con modelos como ChatGPT. Estas ferramentas para xerar texto están a causar un cambio significativo no mercado ao superar a outros competidores, o que resalta o nivel de avance alcanzado por este modelo con respecto aos anteriores.
- 00:20:00 - 00:25:00
Os modelos Deep Seic V3 e R1 foron validados en múltiples probas e obtiveron resultados superiores a ChatGPT e outros modelos no rendemento. Ademais, as tarifas para usar Deep Seic son notablemente máis económicas, o que favora o seu uso en múltiples aplicacións. A capacidade de generar e interactuar a través de API é unha parte clave do seu modelo de negocio, xeralmente accesible para desenvolvedores a un custo inferior que a competencia.
- 00:25:00 - 00:30:00
Deep Seic é notable non só polas súas capacidades senón tamén porque liberou o seu modelo de forma Open Source, permitindo que calquera poida descargalo e executalo nos seus propios servidores. Este feito marca un cambio importante no mercado da IA, sen precedentes na capacidade de personalización e accesibilidade, en comparación coas solucións convencionais que están restrinxidas a servidores privados como OpenAI ou Google.
- 00:30:00 - 00:37:17
O modelo Deep Seic tamén utiliza optimizacións técnicas que reducen os custos de entrenamento e operación, incluíndo unha arquitectura mixta que permite a activación selectiva de expertos especializados. Esta arquitectura, xunto co uso de hardware eficiente e técnicas de compressión de datos, resalta a capacidade de Deep Seic para competir no mercado e desafiar os liderados por compañías americanas.
Mapa mental
Vídeo de preguntas y respuestas
¿Qué hizo Liang We Feng en la universidad?
Formó un grupo de estudiantes para aprender sobre mercados financieros y trading.
¿Qué es el trading cuantitativo?
Es la acción de comprar y vender activos mediante modelos matemáticos y software, en lugar de manualmente.
¿Cuáles son los logros de Deep Seic?
Lanzaron un modelo de inteligencia artificial que supera a competidores de EE. UU. y se ofrece de manera económica y de código abierto.
¿Cómo Deep Seic optimiza su proceso de entrenamiento?
Utilizan un sistema de compresión de datos y comunicación entre gráficas para maximizar el rendimiento.
¿Qué diferencias hay entre Deep Seic y sus competidores?
Deep Seic es más barato y ofrece sus modelos de IA de manera gratuita para descargar.
Ver más resúmenes de vídeos
Conheça seus sabotadores internos - Shirzad Chamine no TEDxStanford - Legendado por TTarga
[Student Corner] Podcast Menggali Ide Bisnis
Objetivo Geral e Objetivos Específicos - Técnica passo a passo! | André Fontenelle
Sostenibilidad empresarial, un nuevo paradigma | Héctor Julián Vargas | TEDxColegioAmericanodeXalapa
DEMENCIAS - ENARM
Argumentación
- 00:00:00liang we feng era un estudiante de
- 00:00:01ingeniería en la universidad de seyang
- 00:00:03en China la ingeniería era algo que la
- 00:00:05apasionaba pero en sus años de
- 00:00:07estudiante se dio cuenta de que si
- 00:00:08realmente quería hacer dinero tenía que
- 00:00:10empezar a explorar otros temas ahí fue
- 00:00:12donde se empezó a interesar por las
- 00:00:13finanzas y formó un grupo de estudiantes
- 00:00:15dentro de su universidad para hablar y
- 00:00:16aprender sobre mercados financieros la
- 00:00:19bolsa aplicando los conocimientos de
- 00:00:21ingeniería a la bolsa empezó a hacer sus
- 00:00:23primeras inmersiones en el mundo del
- 00:00:25quant trading el quant trading es cuando
- 00:00:28la acción de comprar y vender activos
- 00:00:29las hace un ordenador o sea en lugar de
- 00:00:31tener una persona que está ahí comprando
- 00:00:32y vendiendo acciones a mano tenemos un
- 00:00:34modelo matemático tenemos un ordenador
- 00:00:36con un software que está ahí haciendo
- 00:00:38análisis de todos los datos Y decidiendo
- 00:00:39cuándo hay que comprar y cuándo hay que
- 00:00:41vender no es el típico Bot de bolsa que
- 00:00:42te deja el link de descarga a tu
- 00:00:44youtuber de inversiones favorito sino
- 00:00:45que estamos hablando de modelos
- 00:00:47matemáticos avanzados Pero la idea del
- 00:00:48lank iba Más allá de simplemente hacer
- 00:00:50un Bot de bolsa su idea era usar Machine
- 00:00:53learning aprendizaje automático para
- 00:00:55poder tomar las decisiones y dedico gran
- 00:00:57parte de sus años universitarios a todo
- 00:00:58esto tanto es Así que en 2016 tras
- 00:01:01terminar la universidad funda High flyer
- 00:01:03una firma de inversión 100% basada en
- 00:01:06decisiones de compra automatizadas por
- 00:01:08ordenador y con los años se convirtió en
- 00:01:10la firma top cuatro de China manejando
- 00:01:12activos por 8000 millones de dólares
- 00:01:14vamos que mal no le fue pero uno de sus
- 00:01:17sueños desde el principio era usar
- 00:01:18Inteligencia artificial aplicada a los
- 00:01:20mercados financieros tener una
- 00:01:22Inteligencia artificial que fuese capaz
- 00:01:23de determinar con mucha precisión cuándo
- 00:01:26comprar y cuándo vender el tema de la
- 00:01:27Inteligencia artificial era tan
- 00:01:29interesante para para el young que en
- 00:01:302021 compró miles de tarjetas gráficas
- 00:01:33de nvidia muchos lo vieron como un
- 00:01:34millonario excéntrico que compraba
- 00:01:36juguetes para quitarse el gusanillo de
- 00:01:38jugar con tecnologías Que de momento no
- 00:01:40tenían ningún uso fuera de un proyecto
- 00:01:42universitario y otros sabían que lo que
- 00:01:43se venía iba a ser una Revolución dos
- 00:01:46años más tarde el 17 de julio de 2023
- 00:01:49funda la empresa hano Deep seic
- 00:01:52artificial intelligence basic Technology
- 00:01:54research Corporation limited también
- 00:01:56conocida como deeps una empresa con
- 00:01:59menos de 200 empleados que a finales de
- 00:02:012024 lanzó un modelo de Inteligencia
- 00:02:03artificial que hizo temblar a toda la
- 00:02:05industria tecnológica la bolsa e incluso
- 00:02:07puso nerviosos a más de un gobierno de
- 00:02:10qué iba este lanzamiento Bueno pues
- 00:02:11seguramente lo hayas visto en las
- 00:02:12noticias deeps es un modelo de
- 00:02:14Inteligencia artificial creado con un
- 00:02:15presupuesto supuestamente bastante bajo
- 00:02:18y que aún así es mejor que algunos de
- 00:02:19los mejores modelos creados por las
- 00:02:21mejores empresas de Estados Unidos en
- 00:02:22algunos aspectos Pero por qué dips ha
- 00:02:25causado tanto revuelo Qué tiene de
- 00:02:26especial que una empresa china haya
- 00:02:28desarrollado un modelo así bueno Pues lo
- 00:02:30más probable es que leyendo las noticias
- 00:02:31no te hayas enterado de nada porque a mí
- 00:02:33también me ha pasado Así que hoy te voy
- 00:02:34a contar exactamente y sin tonterías ni
- 00:02:37clickbaits qué tiene de especial deeps y
- 00:02:39por qué ha puesto el mundo patas arriba
- 00:02:41pero antes de continuar un mensaje de
- 00:02:43nuestro sponsor jb gore es tu tienda de
- 00:02:45claves de software de confianza donde
- 00:02:46puedes encontrar entre otras cosas
- 00:02:48claves de Windows originales para
- 00:02:49Windows 10 home professional y Windows
- 00:02:5211 que de hecho es donde yo las suelo
- 00:02:53comprar para mí mismo estas claves son
- 00:02:55bastante más económicas que las que
- 00:02:57vende Microsoft porque son claves om o
- 00:02:59sea hasa están pensadas para fabricantes
- 00:03:00de ordenadores que compran el por mayor
- 00:03:02para meter a sus distintos equipos y es
- 00:03:04perfectamente legal revenderlas por
- 00:03:06mucho que Microsoft no le guste
- 00:03:07demasiado Así que pequeño hack para
- 00:03:09conseguir Windows original sin necesidad
- 00:03:11de instalar un crack en tu ordenador
- 00:03:13abajo te dejaré los enlaces para que
- 00:03:15puedas ir a la web a comprar las claves
- 00:03:16pero no solo eso sino que también te
- 00:03:18dejaré un pequeño código de descuento
- 00:03:19para que puedas ahorrar algunos euros
- 00:03:21gracias a jv gimol por patrocinar este
- 00:03:23vídeo y ahora sigamos con el contenido
- 00:03:25de hoy
- 00:03:28[Música]
- 00:03:37hay dos puntos muy importantes que
- 00:03:38tenemos que aclarar sobre deeps el
- 00:03:40primero es que es una empresa fundada
- 00:03:41con el capital de highflyer High flyer
- 00:03:43es esta firma de qu trading que tiene el
- 00:03:45yang no que funda yang al salir de la
- 00:03:47uni lang usó dinero de su firma de
- 00:03:49inversión para crear esta empresa por lo
- 00:03:51que realmente si bien el gobierno de
- 00:03:52China Es verdad que está incentivando la
- 00:03:54Inteligencia artificial realmente no es
- 00:03:56una empresa que tenga ningún tipo de
- 00:03:57afiliación con el gobierno es una
- 00:03:59empresa del young o mejor dicho de High
- 00:04:01flyer está el gobierno chino de alguna
- 00:04:03forma ayudando a deeps Bueno pues la
- 00:04:05verdad es que es difícil saberlo o sea
- 00:04:06Nosotros ahora mismo no tenemos forma de
- 00:04:08Saber esto Pero en principio los planes
- 00:04:10de China para incentivar la Inteligencia
- 00:04:12artificial son más bien proyectos de
- 00:04:14construir centros de datos potenciar la
- 00:04:16ia en las universidades Y hacer que las
- 00:04:17leyes favorezcan de alguna manera la ia
- 00:04:20generativa no que no esté tan
- 00:04:21restringido como en Europa que no se
- 00:04:22puede hacer nada estas cosas tendrán
- 00:04:24efecto a largo plazo en 10 años cuando
- 00:04:26tengamos una nueva generación de
- 00:04:27estudiantes que sepan pues un montón de
- 00:04:30Inteligencia artificial que tengan
- 00:04:31educación a nivel top acceso a los
- 00:04:33mejores ordenadores Pero bueno ahora
- 00:04:34mismo no hay pruebas de que china como
- 00:04:37gobierno tenga nada que ver con Deep
- 00:04:39seek Deep seek viene de High flyer de
- 00:04:41nuestro amigo lang al puro estilo
- 00:04:42capitalista americano y lo que han
- 00:04:44lanzado en noviembre de 2024 son dos
- 00:04:46modelos uno se llama Deep seic R1 y el
- 00:04:49otro se llama Deep seic v3 los dos llms
- 00:04:53o sea large Language models al estilo de
- 00:04:55chat gpt claud gemini o Lama básicamente
- 00:04:59son modelos que generan texto y a ver
- 00:05:01existen muchos modelos de este tipo pero
- 00:05:02no tan buenos como este Mirad existen
- 00:05:04pruebas para valorar Qué tan bueno es un
- 00:05:06modelo Comparado con otros y aquí podéis
- 00:05:08ver algunas de estas pruebas son pruebas
- 00:05:09que le ponen desafíos al modelo no tiene
- 00:05:11que contestar preguntas resolver
- 00:05:12acertijos etcétera etcétera Pues resulta
- 00:05:15que en algunas de estas pruebas dipsi
- 00:05:16qv3 ahora mismo es mejor que los mejores
- 00:05:19que teníamos hasta la fecha superando a
- 00:05:20Cloud 3.5 y a gpt 4o podemos ver aquí en
- 00:05:24la web oficial de deeps que es mejor en
- 00:05:26pruebas de rendimiento como mml redux
- 00:05:29que incluye pruebas de conocimiento
- 00:05:30general razonamiento lógico y
- 00:05:32comprensión avanzada en múltiples temas
- 00:05:34como matemáticas historia ciencias y más
- 00:05:37tenemos también por ejemplo a Drop que
- 00:05:39es discrete reasoning over paragraphs
- 00:05:41que mide la capacidad de razonamiento
- 00:05:43sobre textos largos donde las respuestas
- 00:05:45a veces requieren cálculos combinaciones
- 00:05:47de datos o razonamientos lógicos otro
- 00:05:49ejemplo de prueba es eer polyglot que
- 00:05:51evalúa la capacidad del modelo para
- 00:05:52trabajar con múltiples lenguajes de
- 00:05:53programación entendiendo y ejecutando
- 00:05:55tareas con distintas sintaxis Bueno pues
- 00:05:57esto para hacernos una idea lo que nos
- 00:05:58dice es que en alguna alunas de estas
- 00:06:00pruebas no solo es muy parecido al
- 00:06:01rendimiento que tienen otros modelos muy
- 00:06:03avanzados como el de chat gpt sino que
- 00:06:05en algunos es incluso mejor y esto es
- 00:06:07impresionante porque en general no es
- 00:06:09tan fácil crear un modelo que sea tan
- 00:06:11bueno o sea muy pocas empresas en el
- 00:06:13mundo entero lo han conseguido y ese es
- 00:06:15el primer motivo por el que deeps es tan
- 00:06:17impresionante pero no se termina ahí el
- 00:06:19segundo punto interesante es que las
- 00:06:21tarifas para usar Este modelo son
- 00:06:22bastante más baratas que la competencia
- 00:06:24la web para chatear con deeps la típica
- 00:06:26web rollo chat gpt Bueno pues esto es
- 00:06:29incluso gratis como chat gpt pero la
- 00:06:31forma en la que realmente ganan dinero
- 00:06:32estas empresas es a través de la Api la
- 00:06:34Api es la application programming
- 00:06:36interface esto básicamente en cristiano
- 00:06:38es una forma de conectar programas entre
- 00:06:40ellos Imagínate que tienes una app Como
- 00:06:42por ejemplo yo que sé una app de fitness
- 00:06:44de entrenamiento personal y quieres que
- 00:06:46esta app tenga Inteligencia artificial
- 00:06:48por ejemplo pues un chat con un
- 00:06:49entrenador personal que en realidad es
- 00:06:50una ia y te dice recomendaciones te dice
- 00:06:52cómo vas con los ejercicios etcétera
- 00:06:55Bueno pues para esta empresa que tienes
- 00:06:56tú de aplicaciones de deporte programar
- 00:06:59y utar Inteligencia artificial a nivel
- 00:07:01de chat gpt o gemini o deeps no está al
- 00:07:03alcance de de tu mano vale es algo muy
- 00:07:05complejo que necesita mucho dinero de
- 00:07:07inversión y muchos servidores para poder
- 00:07:09ejecutar toda esa inteligencia Así que
- 00:07:11tu mejor opción es conectar tu
- 00:07:13aplicación con una de estas
- 00:07:14inteligencias artificiales que ya
- 00:07:16existen Y ese es el servicio que ellos
- 00:07:18proporcionan Ellos tienen las
- 00:07:19inteligencias artificiales instaladas y
- 00:07:21ejecutadas en un centro de datos de Open
- 00:07:23Ai de Google de lo que sea ellos pagan
- 00:07:25sus servidores pagan la luz pagan todo y
- 00:07:27lo Ejecutan ahí y tú lo que puedes hacer
- 00:07:29es es que tu aplicación hable con esos
- 00:07:31servidores y Cómo se conectan Bueno pues
- 00:07:33utilizando esta Api la Api lo que hace
- 00:07:35es que tu aplicación pueda interactuar
- 00:07:37directamente con una de estas
- 00:07:38inteligencias artificiales es una vía de
- 00:07:40comunicación entre dos aplicaciones la
- 00:07:42app de deporte le daría una serie de
- 00:07:43datos tuyos prompts el historial de
- 00:07:45entrenamientos datos biométricos un
- 00:07:47montón de cosas más tus consultas y chat
- 00:07:49gpt o lo que tenga detrás generaría una
- 00:07:51respuesta que sería pues válida para la
- 00:07:53aplicación en cuestión O sea que simular
- 00:07:55ira este entrenador personal Bueno pues
- 00:07:56usar esta Api tiene un precio
- 00:07:58evidentemente no es gratis vale Y el
- 00:08:00precio se mide por token cada token es
- 00:08:02más o menos una palabra generada un
- 00:08:03poquito menos ya lo explicamos esto en
- 00:08:05el vídeo sobre cómo funciona chat gpt
- 00:08:06cuantas más palabra general a ía más se
- 00:08:08cobra al dueño de la aplicación este es
- 00:08:10uno de los modelos de negocio más
- 00:08:12importantes que existe en este tipo de
- 00:08:14servicios no como chat gpt etcétera vale
- 00:08:16se supone que es uno de los principales
- 00:08:18motores que va a hacer que toda esta
- 00:08:19industria funcione y que todos también
- 00:08:21podamos tener ía tanto es así que Apple
- 00:08:23incluso este año conectaría a Siri con
- 00:08:25chat gpt para que pueda dar por fin
- 00:08:27respuestas inteligentes a ver si es
- 00:08:28verdad mientras que los tokens de salida
- 00:08:30de chat gpt cuestan 10 por el millón de
- 00:08:33tokens en su modelo gpt 4o el estándar
- 00:08:36digamos dips con v3 cuesta 1,1 por
- 00:08:40millón de tokens unas 10 veces más
- 00:08:42barato que chat gpt pero no se termina
- 00:08:44ahí vale Esto no es lo más impactante
- 00:08:46Mirad estos modelos de Inteligencia
- 00:08:47artificial como decíamos antes necesitan
- 00:08:49de Super ordenadores con muchísimas
- 00:08:51gráficas para poder ejecutarse en
- 00:08:53centros de datos con millones de
- 00:08:55inversión vale que sería algo muy
- 00:08:56difícil de tener en tu casa o incluso en
- 00:08:58tu empresa o que es algo en lo que
- 00:09:00quizás no te interesa invertir no por
- 00:09:01todos los costes que tiene de
- 00:09:03infraestructura personal etcétera por
- 00:09:04eso chat gpt se ejecuta Pues en los
- 00:09:06servidores de Open Ai ahora si tú te
- 00:09:08quieres Descargar chat gpt el modelo
- 00:09:11Vale y correrlo en tus propios super
- 00:09:13ordenadores tampoco podrías porque Open
- 00:09:15Ai Pues no te deja descargarlo no te lo
- 00:09:17libera hay algunos modelos que sí te lo
- 00:09:19permiten Como por ejemplo Lama de Mark
- 00:09:20zuckenberg y meta que de hecho es uno de
- 00:09:22los mejores para esto y hay muchas
- 00:09:24versiones incluso alguno que lo puedes
- 00:09:25correr en un portátil o incluso otros
- 00:09:27que necesitan un centro de datos entero
- 00:09:29para ejecutarlo pero los mejores modelos
- 00:09:31del mundo rara vez te los puedes
- 00:09:32descargar y ejecutarlos en tu
- 00:09:33infraestructura no O sea chat gpt o
- 00:09:35gemini de Google solo los puedes usar en
- 00:09:37los servidores de cada una de estas
- 00:09:39empresas y bueno Esto es algo que para
- 00:09:40la industria es normal o sea te imaginas
- 00:09:42que gpt fuese libre y gratis y te lo
- 00:09:44pudieras bajar y te lo ejecutas en tu
- 00:09:46servidor o sea le montaría literalmente
- 00:09:48la competencia a chat gpt podrías
- 00:09:49modificarlo hacer tu propia versión
- 00:09:51tenerlo corriendo en tus servidores para
- 00:09:52tu empresa sin pagar nada más que la
- 00:09:54electricidad sin tener que pagar el
- 00:09:55precio de la Api y todas estas cosas
- 00:09:57Bueno pues Agárrate porque resulta que
- 00:09:59dips ha liberado de forma Open source y
- 00:10:02totalmente gratuita su modelo dips v3 y
- 00:10:05R1 o sea literalmente te los puedes
- 00:10:07bajar y ejecutarlos en tu centro de
- 00:10:09datos Eso sí para el modelo más grande
- 00:10:10de dips R1 por ejemplo que tiene 671
- 00:10:13miles de millones de parámetros
- 00:10:14necesitarías unas 16 gráficas a 100 de
- 00:10:17nvidia que tienen unos 80 GB de memoria
- 00:10:20cada una sumando en total 1280 GB de
- 00:10:23memoria montarte esto te costaría algo
- 00:10:25así como medio millón de dólares pero
- 00:10:27bueno podrías ejecutar dipsi r1 con todo
- 00:10:29su potencial Y esto es una amenaza
- 00:10:31bastante grande contra la industria
- 00:10:33americana de la Inteligencia artificial
- 00:10:35no solo tenemos un modelo mucho más
- 00:10:36barato de usar sino que te lo puedes
- 00:10:38bajar y usarlo por tu cuenta incluso
- 00:10:40personalizarlo Y qué tal está
- 00:10:42funcionando a nivel de descargas O sea
- 00:10:43hay mucha gente que se lo está
- 00:10:44descargando Bueno pues la primera semana
- 00:10:45de lanzamiento ha tenido más de un
- 00:10:47millón de descargas Esto no es gente que
- 00:10:49se haya bajado la app en el móvil o que
- 00:10:50se haya registrado en la web y haya
- 00:10:52hablado con la con la ia vale esto es
- 00:10:53gente que se ha bajado el modelo entero
- 00:10:56para ejecutarlo por su cuenta y probarlo
- 00:10:58o sea son gente ya técnica avanzada que
- 00:11:00tiene la infraestructura para poder
- 00:11:02hacerlo en resumen es una ia igual o
- 00:11:04mejor que chat gpt aunque ya veremos que
- 00:11:06tiene diferencias no es tan poco igual
- 00:11:07ni mejor en todo con la que puedes
- 00:11:09interactuar de forma más barata e
- 00:11:12incluso Te la puedes descargar y
- 00:11:13ejecutarla tú mismo cosa que con chat
- 00:11:15gpt no puedes hacer esto por sí solo ya
- 00:11:17ha sido bastante revuelo dentro de la
- 00:11:19industria pero no es todo deeps tiene
- 00:11:21algunas otras cosas que son muy
- 00:11:22impresionantes una de las cosas de las
- 00:11:24que más se habla es de que deeps fue
- 00:11:26increíblemente barato de entrenar pero
- 00:11:28no solo de entrenar sino que además es
- 00:11:29barato de ejecutar no solo se hizo el
- 00:11:31entrenamiento con una cantidad de
- 00:11:32gráficas bastante pequeña y en un tiempo
- 00:11:34sorprendentemente corto sino que también
- 00:11:36cuando hicieron R1 el modelo que razona
- 00:11:38también gastaron muy poco dinero
- 00:11:40respecto a lo que la gente se esperaría
- 00:11:42no en crear un modelo de ese tipo pero
- 00:11:44luego es que además los propios costes
- 00:11:45de operación o sea lo que les cuesta
- 00:11:47correr ese modelo en el día a día y la
- 00:11:49cantidad de gráficas que se necesitan es
- 00:11:51mucho menos de lo que estamos
- 00:11:52acostumbrados en otros modelos de
- 00:11:53Inteligencia artificial parecidos cómo
- 00:11:55hicieron esto Bueno pues con una serie
- 00:11:57de mejoras técnicas evoluciones y
- 00:11:59optimizaciones que son las que permiten
- 00:12:00que sea suficiente el primer gran punto
- 00:12:03de deeps es la arquitectura que tiene
- 00:12:05detrás los modelos a los que estamos
- 00:12:07acostumbrados como yama o gpt se basan
- 00:12:10en una red neuronal generalista que se
- 00:12:11entrena con un montón de conocimiento de
- 00:12:13todo tipo para generar texto sobre
- 00:12:15cualquier cosa o cualquier área de
- 00:12:16conocimiento chat gpt sí que es verdad
- 00:12:18que por ejemplo tiene módulos que le
- 00:12:19ayudan a buscar cosas en Google que le
- 00:12:21ayudan a hacer cálculos matemáticos Pero
- 00:12:23bueno en general cuando generan palabras
- 00:12:25lo que tenemos es un gran cerebro que
- 00:12:27procesa cada uno de los prompts que pone
- 00:12:29el usuario dips Por otra parte se basa
- 00:12:31en una arquitectura que se llama mixture
- 00:12:32of experts que se podría Traducir como
- 00:12:35mezcla de expertos aquí la idea es que
- 00:12:37en lugar de tener un gran modelo que se
- 00:12:39ejecuta de forma completa cada vez que
- 00:12:41vamos a procesar el prompt que escribe
- 00:12:42el usuario tenemos como varios modelos
- 00:12:44más pequeñitos que están especializados
- 00:12:46en distintos temas Esto no es una idea
- 00:12:47original de deeps vale No se les ocurrió
- 00:12:49a ellos sino que ya se implementó por
- 00:12:51ejemplo en un proyecto de Google que se
- 00:12:52llama gard o en el modelo mixal e
- 00:12:54incluso viene de un paper de 2017 vale
- 00:12:56no es una cosa nueva y es una forma de
- 00:12:58escalar modelo grandes o sea hacerlos
- 00:13:00más grandes llega un momento que al
- 00:13:01final si quieres que una red Neal sepa
- 00:13:03tantas cosas la mejor manera es dividir
- 00:13:05este Cerebro en varios cerebros expertos
- 00:13:07como haríamos en la vida real no O sea
- 00:13:09si quisiéramos trabajar con muchos temas
- 00:13:10distintos montaría un grupo de expertos
- 00:13:12en lugar de una sola persona que lo sabe
- 00:13:14todo bueno Pues resulta que dips como os
- 00:13:16decía está hecho de un montón de
- 00:13:17expertos distintos un montón de redes
- 00:13:19pero muchísimas Vale entonces lo que
- 00:13:20tenemos delante es un enrutador el
- 00:13:22enrutador es el que va a elegir quién se
- 00:13:25encarga de resolver esa cuestión vale
- 00:13:26Entonces nosotros escribimos un prompt
- 00:13:28le damos a enter el mensaje le llega a
- 00:13:30este enrutador el enrutador se encarga
- 00:13:31de analizarlo y le pone una puntuación a
- 00:13:34cada uno de los expertos esa puntuación
- 00:13:36básicamente lo que dice es qué tan
- 00:13:37relacionada está la pregunta con el área
- 00:13:39de conocimiento que tiene pues ese
- 00:13:40experto en concreto no y en base a eso
- 00:13:42elige Cuál es el mejor experto para
- 00:13:43contestar una pregunta en concreto
- 00:13:44normalmente es más de una red y aquí te
- 00:13:46preguntarás vale tenemos distintos
- 00:13:48expertos Cómo se decide en Qué es
- 00:13:50experta cada red quién lo decide esto
- 00:13:52Bueno pues durante el entrenamiento del
- 00:13:54modelo acordad siempre que tenemos como
- 00:13:55dos fases una en la que el modelo
- 00:13:57aprende y otra en el que modelo explica
- 00:13:59los conocimientos vale el entrenamiento
- 00:14:00es donde está aprendiendo Pues todo no
- 00:14:02de cero pues durante el entrenamiento
- 00:14:03tenemos una red que va catalogando los
- 00:14:06distintos textos de los que está
- 00:14:07aprendiendo el modelo y le va diciendo
- 00:14:08Pues mira este es de un tema Este es de
- 00:14:10otro Este es de otro más Y de esa manera
- 00:14:11pues de alguna forma va agrupando los
- 00:14:13textos por temas distintos de forma
- 00:14:14totalmente automática sin intervención
- 00:14:16humana y le va pasando esto a distintas
- 00:14:18redes Y de esa manera va diciendo Pues
- 00:14:19mira tú te vas a encargar de todos los
- 00:14:20textos relacionados con esto tú te vas a
- 00:14:22encargar de todos los textos
- 00:14:23relacionados con esto otro de esa forma
- 00:14:25por ejemplo podemos tener un experto que
- 00:14:26sabe Mucho de bioquímica otro que sabe
- 00:14:28de polí otro de literatura otro que sabe
- 00:14:31hablar como un niño pequeño otro que
- 00:14:32sabe Mucho de animales y bueno sería un
- 00:14:34poco esa la idea realmente las
- 00:14:35divisiones de conocimiento no son tan
- 00:14:37tan obvias no son tan simples de
- 00:14:38entender pero bueno es para que nos
- 00:14:40hagamos una idea esto tiene un efecto
- 00:14:42brutal vale porque estamos haciendo
- 00:14:43funcionar solo una parte concreta del
- 00:14:45modelo para contestar a temas muy
- 00:14:47concretos en lugar de todo el modelo al
- 00:14:48mismo tiempo en modelos muy grandes como
- 00:14:50gpt cuando se generan palabras se usa
- 00:14:52todo el modelo a la vez y dentro de todo
- 00:14:54ese modelo Pues hay alguna parte que
- 00:14:56influye en la respuesta que hace cosas y
- 00:14:58otras pues no influy fluyen porque
- 00:14:59directamente no se activan pero aún así
- 00:15:01estamos usando todo el cerebro a la vez
- 00:15:03y eso necesita mucha potencia con el
- 00:15:05mixture of expert se selecciona de forma
- 00:15:07mucho más específica no lo que se va a
- 00:15:09usar en concreto es como tener un
- 00:15:11cerebro que se usa todo el tiempo al
- 00:15:12100% o que solo usa pues unas partes
- 00:15:14concretas para hacer tareas concretas y
- 00:15:16eso realmente lo que hace es ahorrar
- 00:15:17mucha energía al sistema Por lo cual
- 00:15:19necesitamos menos gráficas para ejecutar
- 00:15:21el modelo pero aquí realmente el gran
- 00:15:23mérito que tiene deeps porque ya os dije
- 00:15:25antes que no lo inventaron ellos Esto
- 00:15:26vale Es que la arquitectura mixture of
- 00:15:28experts es muy difícil de implementar o
- 00:15:30sea es muy difícil que funcione bien
- 00:15:31nadie hasta ahora había conseguido hacer
- 00:15:33un buen modelo con este sistema y ellos
- 00:15:35lo consiguieron haciendo que el modelo
- 00:15:36tenga primero que nada muchos más
- 00:15:38expertos de lo normal de lo que se había
- 00:15:39usado hasta ahora y además asegurándose
- 00:15:42que cada uno de los expertos no tenga
- 00:15:43conocimiento repetido con otros Además
- 00:15:46de que cuando se detecta que hay
- 00:15:47conocimientos que son como intermedios
- 00:15:48entre varios temas Pues hay expertos
- 00:15:51especiales que son mixtos vale que saben
- 00:15:52como distintos temas a la vez y de esa
- 00:15:54forma pues pueden complementar el
- 00:15:55conocimiento de uno con otro y estos
- 00:15:57expertos mixtos siempre se activan a
- 00:15:59cada interacción y por eso mismo un
- 00:16:01pequeño detalle vale en la web de deeps
- 00:16:03cuando vamos a ver cuántos parámetros
- 00:16:04tiene el modelo Ellos dicen que tiene
- 00:16:07671 miles de millones de parámetros
- 00:16:09estos parámetros es el total entre todos
- 00:16:11los expertos pero solo 37 miles de
- 00:16:13millones están activados Y esto es
- 00:16:15porque cuando se ejecuta la red solo
- 00:16:17activa 37 miles de millones vale No
- 00:16:19activa más porque selecciona esos
- 00:16:21expertos que corresponden con esa
- 00:16:23cantidad de parámetros esto es muy
- 00:16:24interesante la verdad eh Y es y es eso
- 00:16:26no al final es optimización pura y dura
- 00:16:28ahora otra optimización que hicieron que
- 00:16:30esta es un poco más difícil de entender
- 00:16:32fue entrenar el modelo con una precisión
- 00:16:34más baja de lo normal en concreto con
- 00:16:36fp8 esto ya lo expliqué en mi vídeo
- 00:16:38sobre cómo mejoro mi empresa con
- 00:16:39Inteligencia artificial donde os hablo
- 00:16:41de que cada parámetro tiene una
- 00:16:43precisión concreta recordad que los
- 00:16:45parámetros en un modelo son las partes
- 00:16:47que se van Ajustando durante el
- 00:16:48entrenamiento vale sería como si un
- 00:16:50modelo es un cerebro genérico cuando lo
- 00:16:53entrenamos hay una serie de parámetros
- 00:16:54que se van Ajustando que podéis
- 00:16:55imaginarlos como pequeñas manivelas
- 00:16:58pequeños po dimetros que se van
- 00:17:00modificando para configurar el modelo
- 00:17:02para que dé el resultado que nosotros
- 00:17:03queremos Bueno pues estos parámetros
- 00:17:05tienen una precisión que podéis
- 00:17:06imaginarla como Pues el número de cifras
- 00:17:08que tenemos después de la coma como
- 00:17:10estamos en un ordenador estos números se
- 00:17:12representan en binario que también si
- 00:17:13quieres entender esto tengo un vídeo
- 00:17:15sobre cómo funciona el binario y las
- 00:17:16puertas lógicas que es muy interesante
- 00:17:18Bueno pues fp8 o floating Point 8 es un
- 00:17:21formato de binario que te permite
- 00:17:23representar un número decimal o sea un
- 00:17:24número con coma con una precisión de
- 00:17:26ocho cifras binarias este binario es
- 00:17:28distinto del que os he explicado en el
- 00:17:30canal vale es un binario especial que
- 00:17:31tiene un trozo que representa el número
- 00:17:33otro que representa el signo si es
- 00:17:34positivo o negativo y otro que
- 00:17:35representa dónde estaría esa coma un
- 00:17:37poco como la anotación científica Vale
- 00:17:39entonces tenemos una serie de cifras
- 00:17:41binarias y con esto tenemos que
- 00:17:42representar los números cuantas más
- 00:17:43cifras binarias tenemos más ocupa este
- 00:17:45número en memoria pero también más
- 00:17:47precisión tiene o sea más numeritos
- 00:17:49después de la coma vamos a tener Cuántas
- 00:17:50menos cifras binarias tenemos pues ocupa
- 00:17:52menos en memoria pero a la vez el número
- 00:17:54es mucho menos preciso Por ejemplo si
- 00:17:55representá demos el número pi en fp32
- 00:17:58tendríamos amos suficientes cifras como
- 00:18:00para tener el número 3,14 15 9 27 en fp
- 00:18:04166 podríamos tener la precisión para
- 00:18:06representar solo el 3,14 y en fp8
- 00:18:09probablemente 3,1 o sea como podéis ver
- 00:18:11es muy impreciso pero el número ocupa
- 00:18:13menos en memoria Qué significa esto para
- 00:18:14el modelo de Inteligencia artificial
- 00:18:16Bueno pues si tenemos este potenciómetro
- 00:18:18si el número es más pequeño sería como
- 00:18:20tener menos opciones vale tiene como
- 00:18:22menos ajustes con fp32 tendríamos un
- 00:18:24montón de ajustes bastante finos con
- 00:18:26fp16 tendríamos menos y con fp8 pues
- 00:18:29menos aún entonces el modelo es menos
- 00:18:30preciso Pues sí es menos preciso pero
- 00:18:32han encontrado la forma de que usando en
- 00:18:34ciertas partes fp32 el modelo sigue
- 00:18:37siendo muy preciso y ocupa menos espacio
- 00:18:39en memoria y además el tiempo de
- 00:18:41entrenamiento es mucho más rápido esto
- 00:18:43se conoce como mixed precision framework
- 00:18:45o marco de trabajo de precisión mixta
- 00:18:47porque tenemos distintas precisiones en
- 00:18:48distintas partes vamos que han buscado
- 00:18:50recortar de donde se podía tanto en
- 00:18:52memoria como en tiempo pero afectando lo
- 00:18:53mínimo posible al resultado lo que viene
- 00:18:55a ser optimizar lo que no hacen en los
- 00:18:57juegos de hoy en día otras dos cosas que
- 00:18:59hace el modelo que son un poquito más
- 00:19:00complicadas vale es que primero que nada
- 00:19:02en la capa de atención tiene múltiples
- 00:19:04cabezas por lo que puede prestar
- 00:19:05atención a varios términos a la vez y
- 00:19:07analizar la frase desde distintos
- 00:19:08ángulos esto ya para entenderlo mejor
- 00:19:10tendrías que mirarte mi vídeo de cómo
- 00:19:11funciona chat gpt que ahí te lo explico
- 00:19:13de forma estupenda y la otra cosa es que
- 00:19:15puede generar múltiples tokens a cada
- 00:19:17pasada mientras que modelos como gpt van
- 00:19:19generando un token a la vez pues este
- 00:19:21haría una predicción múltiple o sea
- 00:19:23sacaría varios tokens de una sola tirada
- 00:19:24Y esto se ha visto que no da peores
- 00:19:26resultados y además es más eficiente o o
- 00:19:28sea ayuda a que el modelo se ejecute más
- 00:19:30rápido y con menos energía Entonces por
- 00:19:32estas cuatro cosas el mixture of experts
- 00:19:35el usar fp8 la capa de atención con
- 00:19:37múltiples cabezas y la generación
- 00:19:39múltiple de tokens deeps es mucho más
- 00:19:41rápido y barato que la competencia y
- 00:19:44ahora bien hasta este punto no han
- 00:19:45inventado nada realmente nuevo pero hay
- 00:19:48que entender que esto en el ámbito de la
- 00:19:49Inteligencia artificial es completamente
- 00:19:51normal vale Así es como está
- 00:19:53evolucionando la tecnología hoy en día
- 00:19:54la Inteligencia artificial se creó en el
- 00:19:56mundo académico o sea en el mundo de las
- 00:19:57universidades o sea se basa en proyectos
- 00:19:59de investigación de universidades todo
- 00:20:01este conocimiento investigación y
- 00:20:03pruebas son básicamente públicos o sea
- 00:20:06puedes leer sobre ellos en muchas
- 00:20:08publicaciones y te explican exactamente
- 00:20:10cómo funcionan muchas de las tecnologías
- 00:20:12que utilizan modelos de difusión
- 00:20:13Transformers redes neuronales todo esto
- 00:20:15viene de software de código abierto que
- 00:20:17los investigadores y los programadores
- 00:20:19comparten de forma totalmente gratuita a
- 00:20:21ver las empresas evidentemente se
- 00:20:22aprovechan de esto para crear luego sus
- 00:20:24tecnologías privadas Como por ejemplo
- 00:20:26Google pero el caso más extremo sería el
- 00:20:28Open Ai que es una empresa que empezó
- 00:20:30con la idea de investigar y liberar el
- 00:20:32conocimiento de forma abierta libre y
- 00:20:34gratuita vamos que la empresa se llama
- 00:20:36openi por algo y lo que pasa es que con
- 00:20:38el tiempo pues han desarrollado alguno
- 00:20:40de los modelos más avanzados del mundo
- 00:20:42que hacen cosas que muy pocos otros en
- 00:20:44el mundo pueden hacer y esto pues lo han
- 00:20:46privatizado y no lo comparten con nadie
- 00:20:47o sea los detalles de cómo funciona eso
- 00:20:49por dentro no lo sabe nadie pero
- 00:20:51realmente la tecnología que tiene detrás
- 00:20:53todo el conocimiento de cómo conseguirlo
- 00:20:55Es algo que de alguna forma es público
- 00:20:56no es algo que puedes llegar a leer que
- 00:20:58puedes llegar a implementar Y si eres lo
- 00:20:59suficientemente bueno puedes llegar a
- 00:21:01montar un modelo como chat gpt en tu
- 00:21:03casa Bueno en tu casa no pero ya me
- 00:21:04entiendes de todos modos que deeps haya
- 00:21:06conseguido esto es bastante
- 00:21:07impresionante pero no se termina ahí el
- 00:21:09segundo punto impresionante que ha
- 00:21:10conseguido deeps es el modelo R1 Esto sí
- 00:21:13que está a otro nivel R1 es un modelo
- 00:21:16que razona Mirad con el tiempo las
- 00:21:18empresas como Open Ai se dieron cuenta
- 00:21:19de que los modelos no son buenos
- 00:21:21resolviendo cualquier tipo de problema
- 00:21:23como por ejemplo acertijos lógicos hay
- 00:21:25un vídeo muy bueno de computer file
- 00:21:26donde Mike pound de la Universidad de
- 00:21:28nottingham nos explica que por ejemplo
- 00:21:30si le decimos a chat gpt que tenemos un
- 00:21:32recuadro rojo con uno arriba de color
- 00:21:34azul y otro arriba de color amarillo y
- 00:21:36movemos el azul arriba de todo y además
- 00:21:38añadimos otro verde por encima chat gpt
- 00:21:41no es capaz de decirte el orden Exacto
- 00:21:42final de estos cuadrados y esto es
- 00:21:44porque para resolver este problema hay
- 00:21:46que seguir una serie de pasos imaginarte
- 00:21:48la escena y razonar no Cuál va a ser el
- 00:21:50orden final de los cuadrados no puedes
- 00:21:51simplemente improvisar sobre la marcha
- 00:21:53este razonamiento cuando lo hace un
- 00:21:55humano lo hace a través de una serie de
- 00:21:56pasos muevo este luego cambio este luego
- 00:21:58Este vale Y este proceso se llama cadena
- 00:22:01de pensamiento Chain of thought Bueno
- 00:22:03pues para eso Open aa inventó chat gpt
- 00:22:06o1 que justamente lo que hace es ir
- 00:22:08desarrollando cada uno de los pasos que
- 00:22:10necesita el problema para resolverse
- 00:22:12hasta este momento Este era uno de los
- 00:22:13modelos más avanzados del mundo en
- 00:22:15Muchas tareas complejas en muchas de las
- 00:22:17pruebas de las que hablamos antes ahora
- 00:22:19deeps con R1 se acerca tanto a chat gpt
- 00:22:21o1 que vamos o sea da hasta miedo y
- 00:22:24además lo hicieron con muy poco dinero y
- 00:22:26muy poco poder de cálculo cómo lo
- 00:22:27consiguieron Bueno pues realmente de una
- 00:22:29forma bastante sencilla y estúpida para
- 00:22:31entrenar un modelo de razonamiento como
- 00:22:33chat gpt o1 sabemos que Open Ai utiliza
- 00:22:35el método de reinforcement learning by
- 00:22:38human feedback o sea cogen chat gpt 4
- 00:22:40vale el que ya tienen y empiezan a hacer
- 00:22:42lo que se llama fine tuning y de esta
- 00:22:44manera pues van Ajustando y Ajustando y
- 00:22:45Ajustando el modelo hasta que acaba
- 00:22:47respondiendo de una forma concreta en el
- 00:22:49caso del razonamiento justamente lo que
- 00:22:51quieren es que el modelo saque un texto
- 00:22:53muy largo a través del cual vaya
- 00:22:54razonando y vaya haciendo toda esta
- 00:22:56cadena de pensamiento y esto lo siguen
- 00:22:58pues pasándole ejemplos a chat gpt vale
- 00:23:01hay humanos que hacen ejemplos de cómo
- 00:23:03razonan un problema y esto se lo se lo
- 00:23:05pasan a chat gpt para que aprenda a
- 00:23:06hacerlo de esta manera el tema del rl hf
- 00:23:09ya lo vimos en el vídeo sobre cómo
- 00:23:10funciona chat gpt pero bueno básicamente
- 00:23:13en lo que consiste es que hay un gran
- 00:23:14grupo de humanos que evalúan los
- 00:23:16resultados del modelo o sea el modelo va
- 00:23:17generando cosas y luego tenemos una
- 00:23:19serie de humanos que le van diciendo qué
- 00:23:21respuestas son buenas qué respuestas son
- 00:23:22malas Cuáles son más amigables Cuáles no
- 00:23:25etcétera etcétera entonces con un gran
- 00:23:27set de respuestas de calidad creado por
- 00:23:28el feedback de los humanos Se entrena
- 00:23:30otra red que es capaz de decir si una
- 00:23:32respuesta es buena o no es buena según
- 00:23:34el criterio del humano no pero bueno
- 00:23:35total para que te hagas una idea que hay
- 00:23:36seres humanos ahí que están
- 00:23:38interactuando con la ia están generando
- 00:23:40resultados para que la ia aprenda de
- 00:23:41ellos vale Este sería un poco el sistema
- 00:23:43de Open Ai Bueno pues lo que ha hecho
- 00:23:45Deep seek ha sido decir esto es muy caro
- 00:23:47esto no lo vamos a poder hacer así que
- 00:23:49vamos a hacerlo como se hacía de toda la
- 00:23:50vida vamos a usar el reinforcement
- 00:23:52learning o sea aprendizaje por refuerzo
- 00:23:55pero sin humanos o sea todo automático
- 00:23:58Cómo funciona esto cómo lo hicieron
- 00:24:00Bueno pues para entrenar a R1 primero
- 00:24:02que nada partieron de v3 O sea ya tenían
- 00:24:04el deeps v3 y dijeron vamos a crear en
- 00:24:06base a esto un modelo que razone y pueda
- 00:24:09resolver problemas complejos cómo lo
- 00:24:10vamos a hacer Bueno pues vamos a elegir
- 00:24:12una serie de problemas complejos de los
- 00:24:13cuales tenemos una una respuesta que es
- 00:24:15determinista o sea podemos chequear
- 00:24:18fácilmente que la respuesta es correcta
- 00:24:20o no Como por ejemplo un acertijo un
- 00:24:22problema matemático un código de
- 00:24:24programación que cuando lo ejecutas te
- 00:24:25da un resultado x y bueno distintas
- 00:24:27áreas en las cuales podemos poner Este
- 00:24:29modelo a prueba y podemos comprobar si
- 00:24:31ese resultado está bien o está mal
- 00:24:33entonces básicamente lo que hacen es
- 00:24:34ponerle estas cuestiones a deeps y deeps
- 00:24:37tiene que generar respuestas por su
- 00:24:38cuenta vale tiene que contestar y existe
- 00:24:41un sistema que evalúa qué tan bien o qué
- 00:24:43tan mal está esa respuesta o sea si se
- 00:24:44acerca más al resultado que necesitamos
- 00:24:46o si se aleja mucho y a estas pues les
- 00:24:49pone un positivo no entonces el modelo
- 00:24:51recoge ese feedback y dice vale esta
- 00:24:53respuesta se acerca más a lo que tengo
- 00:24:55que decir y vuelve a generar otras
- 00:24:56respuestas pero condicionado con este
- 00:24:58feedback genera las nuevas respuestas y
- 00:25:00el software vuelve a evaluar Pues mira
- 00:25:02ahora esta se parece aún más a lo que yo
- 00:25:04espero y le pone pues una puntuación
- 00:25:06positiva Entonces el modelo pues lo
- 00:25:07vuelve a hacer y así sucesivamente
- 00:25:09muchas veces hasta que al final consigue
- 00:25:12contestar a la pregunta de forma
- 00:25:13correcta vamos que no se le está
- 00:25:15explicando a deeps cómo tiene que pensar
- 00:25:17o no se le está dando ejemplos de Cómo
- 00:25:19resolver los problemas sino que
- 00:25:21simplemente cuando da una respuesta que
- 00:25:22más o menos está bien que va en buena
- 00:25:24dirección pues esto se le da un punto
- 00:25:26extra Y en este proceso no hay No hay
- 00:25:28ninguna intervención de ningún humano
- 00:25:29todo esto es automático y haciendo esto
- 00:25:31durante mucho tiempo con muchos casos al
- 00:25:32final el modelo aprendió a razonar y la
- 00:25:35parte impresionante de todo esto es que
- 00:25:36nadie se esperaba que eso funcionase de
- 00:25:38hecho fueron viendo durante la fase de
- 00:25:39entrenamiento durante la fase de fine
- 00:25:41tuning que el modelo de repente iba
- 00:25:43haciendo respuestas cada vez más largas
- 00:25:44y más complejas lo cual se iba acercando
- 00:25:46cada vez más a un razonamiento Y de esa
- 00:25:48manera totalmente automática sin humanos
- 00:25:51sin nada con el modelo probando a ver si
- 00:25:53funcionan las respuestas Pues fue
- 00:25:55aprendiendo aprendiendo aprendiendo
- 00:25:56hasta conseguir resultados que están al
- 00:25:57nivel de los de chat gpt o sea es
- 00:26:00totalmente increíble esto tan increíble
- 00:26:02que incluso han acusado a dips de
- 00:26:04destilar el conocimiento de chat gbt Qué
- 00:26:06significa destilar bueno Pues
- 00:26:08básicamente preguntarle cosas a chat gbt
- 00:26:10que chat gbt responda y pasarle esas
- 00:26:12respuestas a dips para que aprenda
- 00:26:14responder como chat gpt pero esto no hay
- 00:26:16pruebas de que se haya hecho vale o sea
- 00:26:18en principio el sistema que han
- 00:26:19utilizado es este que os acabo de contar
- 00:26:20el reinforce learning totalmente
- 00:26:22automatizado ahora una cosa importante
- 00:26:24vale Y es que tanto v3 como r1 no fueron
- 00:26:27entrenados con el esfuerzo de humanos y
- 00:26:29por eso chat gpt es mejor en cuanto a
- 00:26:31crear respuestas que son más agradables
- 00:26:33suenan más humanas son más creativas es
- 00:26:35mejor creando historias y en general
- 00:26:37para las tareas que necesitan una cierta
- 00:26:38creatividad mientras que deeps como
- 00:26:40tiene ese entrenamiento tan basado en
- 00:26:42problemas matemáticos y problemas
- 00:26:43lógicos es mejor para tareas
- 00:26:44industriales problemas lógicos y de
- 00:26:47carácter más científico aún así a mí me
- 00:26:49parece una locura que exista un modelo
- 00:26:51como deeps R1 hecho con este proceso y
- 00:26:53que tenga los resultados que tiene que
- 00:26:55haya sido tan barato de entrenar pero
- 00:26:57sobre todo que sea gratis vale porque tú
- 00:26:59te puedes descargar R1 y correrlo en tu
- 00:27:01super ordenador como decíamos antes
- 00:27:03cualquier Universidad o cualquier
- 00:27:05empresa con la suficiente
- 00:27:06infraestructura puede ejecutarlo si
- 00:27:07quiere y modificarlo y entrenarlo para
- 00:27:10que haga lo que ellos quieren volvemos a
- 00:27:12la misma pregunta cómo ganan dinero si
- 00:27:13lo dan todo gratis Bueno pues este es
- 00:27:14uno de los temas que tratamos largo y
- 00:27:16tendido en mi libro en el capítulo sobre
- 00:27:18el software libre pero bueno básicamente
- 00:27:20al liberar el modelo lo que consiguen Es
- 00:27:22que la comunidad les ayude a mejorar el
- 00:27:24producto gana mucha popularidad porque
- 00:27:26vamos esto ha hecho ruido por todas
- 00:27:27partes partes pero la mayoría de gente a
- 00:27:30la hora de la verdad no va a querer
- 00:27:31bajárselo y ejecutarlo en su propio
- 00:27:33centro de datos sino que directamente lo
- 00:27:35van a correr en su servidores y van a
- 00:27:36pagar el servicio es que les sale más
- 00:27:38barato básicamente otra cosa bastante
- 00:27:40astuta que ha hecho deeps son los
- 00:27:41modelos destilados que son modelos más
- 00:27:43pequeños versiones más pequeñas que
- 00:27:45puedes correr en tu propio ordenador y
- 00:27:47que en realidad no están basados en
- 00:27:48deeps sino que son otros modelos Como
- 00:27:50por ejemplo yama y tienen un concepto
- 00:27:51muy distinto esto por cierto los veremos
- 00:27:53en otro vídeo en el canal vale donde
- 00:27:55probaremos deeps en mi ordenador y en
- 00:27:57ese vídeo pues os explicaré más en
- 00:27:58detalle Cómo funciona el tema pero ahora
- 00:28:00os quiero contar lo que para mí es lo
- 00:28:02más impresionante que ha hecho dips lo
- 00:28:03más complicado de todo y es entrenar
- 00:28:06Este modelo en Hardware que en teoría no
- 00:28:08tiene la potencia para hacerlo en 2023
- 00:28:11el gobierno de los Estados Unidos creó
- 00:28:12una serie de restricciones para que
- 00:28:14nvidia no pudiese vender libremente
- 00:28:16tarjetas gráficas en China no me refiero
- 00:28:18a la típica 4080 o 4090 que con un poco
- 00:28:21de suerte tendréis dentro de vuestro PC
- 00:28:23de casa sino que estoy hablando de
- 00:28:24gráficas especiales las H100 las H100
- 00:28:27son gráficas que no puedes comprar así
- 00:28:29como así vale son gráficas para empresas
- 00:28:31y para organizaciones que necesitan un
- 00:28:33gran poder de cálculo están pensadas
- 00:28:34para cálculo científico avanzado
- 00:28:36simulaciones modelos e Inteligencia
- 00:28:39artificial son la gama de producto Más
- 00:28:41alto que tiene envidia vale para que te
- 00:28:42hagas una idea y en concreto estas H100
- 00:28:44son las que se usan para entrenar
- 00:28:45modelos como chat gbt Bueno pues estas
- 00:28:47restricciones lo que hacen es que estas
- 00:28:49gráficas se puedan vender en China pero
- 00:28:52en una versión un poquito menos potente
- 00:28:54en cuanto a Potencia de cálculo pero
- 00:28:56tienen otra restricción que es bastante
- 00:28:58más grande y es la de la memoria para
- 00:28:59entrenar una Inteligencia artificial
- 00:29:01necesitamos un montón de gráficas
- 00:29:02conectadas entre ellas esto se hace para
- 00:29:04combinar el poder de cálculo y para
- 00:29:06combinar este poder también necesitamos
- 00:29:08que compartan datos de lo que están
- 00:29:10trabajando en todo momento de la forma
- 00:29:11más rápida posible por ejemplo en
- 00:29:13concreto la H100 es una caja que dentro
- 00:29:15tiene ocho chips o sea ocho gráficas
- 00:29:17distintas y estas tienen que hablar muy
- 00:29:19rápido entre ellas bueno Pues resulta
- 00:29:21que la versión China tiene la velocidad
- 00:29:22de comunicación entre gráficas limitada
- 00:29:24mientras que la H100 puede mandar entre
- 00:29:27600 y 900 GB de datos por segundo la
- 00:29:30versión china solo puede mandar 300 GB
- 00:29:32por segundo luego la lectura de la
- 00:29:34propia memoria por parte de la Gráfica
- 00:29:35la memoria que tiene cada una de las
- 00:29:37gráficas pasa de 3,35 tb en la versión
- 00:29:40americana a 1,6 tb en la versión china
- 00:29:43Por otra parte la H100 americana llega a
- 00:29:45más de 400 teraflops de cálculo de fp16
- 00:29:49mientras que la versión China tiene algo
- 00:29:50así como la mitad unos 200 teraflops
- 00:29:53Aunque en fp8 sigue siendo igual de
- 00:29:55potente ahora ya sabéis por qué lo han
- 00:29:56entrenado usando fp8 esta versión china
- 00:29:58se llama h800 y el objetivo de todo esto
- 00:30:01es que china no pueda crear proyectos de
- 00:30:03Inteligencia artificial tan avanzados
- 00:30:05como los que se crean en el resto del
- 00:30:06mundo Bueno pues deeps usó 2048 gráficas
- 00:30:09h800 para entrenar su modelo có hicieron
- 00:30:12para conseguir estos resultados a pesar
- 00:30:14de no tener las H100 que se venden en
- 00:30:15Estados Unidos Bueno pues Agárrate
- 00:30:17porque ahora es cuando viene lo más
- 00:30:19impresionante de toda esta historia como
- 00:30:21os decía antes la velocidad con la que
- 00:30:22las gráficas hablan entre ellas es un
- 00:30:24problema no son suficientemente rápidas
- 00:30:26como para conseguir un en rendimiento
- 00:30:28Así que le dieron unas cuantas vueltas
- 00:30:29al problema y pensaron Qué pasaría si
- 00:30:31creamos un sistema de comunicación entre
- 00:30:33gráficas programado desde cero por
- 00:30:36nosotros que intente aprovechar al
- 00:30:38máximo ese ancho de banda que tenemos
- 00:30:40podríamos por ejemplo comprimir los
- 00:30:41datos ya sabéis que el típico archivo
- 00:30:43zip o rar que está comprimido ocupa
- 00:30:45menos espacio en memoria respecto al
- 00:30:47archivo original Bueno pues esto sería
- 00:30:48un poco lo mismo y si comprimimos los
- 00:30:50datos antes de mandarlos entre gráficas
- 00:30:52y qué más podemos hacer Bueno pues por
- 00:30:54ejemplo montar un sistema que en lugar
- 00:30:55de esperar a que terminen los cálculos
- 00:30:57vaya andando ya datos a otras gráficas
- 00:30:59Para aprovechar el tiempo otra cosa que
- 00:31:01podríamos mirar es qué datos hay de la
- 00:31:03otra parte para solo mandar lo que hace
- 00:31:04falta y no volver a enviar partes que ya
- 00:31:06se han enviado por error Total que se
- 00:31:08montaron un software bastante complejo
- 00:31:10muy inteligente que intenta aprovechar
- 00:31:12este ancho de banda al máximo con estos
- 00:31:14300 GB por segundo Y de esa manera
- 00:31:16consiguieron que comunique de forma
- 00:31:17mucho más rápido optimizando lo todo lo
- 00:31:19posible y consiguiendo resultados
- 00:31:21parecidos a la versión americana pero
- 00:31:22esto realmente no es fácil vale o sea
- 00:31:24para programar gráficas de nvidia
- 00:31:26Normalmente se usa un sistema que se
- 00:31:27llama kuda cuda es la forma estándar de
- 00:31:29hablar con la Gráfica de envidia para
- 00:31:31poder pedirle que haga cálculos pero
- 00:31:32claro cuda tiene pues una serie de
- 00:31:34limitaciones no puedes pedir a la
- 00:31:35Gráfica cualquier cualquier cosa Vale
- 00:31:38para hacer cosas un poco raras envidia
- 00:31:39tiene un lenguaje de programación muy
- 00:31:41complicado de bajo nivel que necesita
- 00:31:43mucho conocimiento No solo del lenguaje
- 00:31:45sino también de cómo funciona una
- 00:31:46gráfica en sí Y ese lenguaje se llama
- 00:31:48ptx ptx No es para cualquiera vale
- 00:31:51complica mucho las cosas y hace falta un
- 00:31:52equipo con mucho conocimiento para poder
- 00:31:54usarlo Bueno pues lo que hizo deeps fue
- 00:31:56usar ptx para que una parte de la
- 00:31:58Gráfica vale una parte de los núcleos 20
- 00:32:00de los 132 SMS que tiene la tarjeta
- 00:32:02gráfica se usen exclusivamente para
- 00:32:04correr este código especial encargado de
- 00:32:07comprimir los datos y enviarlos a través
- 00:32:08de la memoria vamos optimizar las
- 00:32:10comunicaciones Esto es algo que repito
- 00:32:12es imposible hacer con kuda y no es para
- 00:32:14cualquiera tampoco vale realmente tienes
- 00:32:15que saber mucho para poder hacer algo
- 00:32:17por el estilo y deeps lo consiguió y
- 00:32:19esto realmente ha sido muy polémico
- 00:32:21Porque mientras que las empresas están
- 00:32:23invirtiendo en mejorar las gráficas
- 00:32:24comprar últimos modelos de nvidia que
- 00:32:26son un poco más rápidos gráficas que son
- 00:32:28un poco más potentes gráficas que hablan
- 00:32:30un poco más rápido entre ellas y en
- 00:32:31general invertir en escalar el Hardware
- 00:32:33vale tener mejor Hardware para que los
- 00:32:35modelos sean mejores pues dips al final
- 00:32:37de forma forzada nos está demostrando
- 00:32:39que optimizando el software optimizando
- 00:32:41las gráficas aprovechando mejor lo que
- 00:32:42ya tenemos podemos conseguir resultados
- 00:32:44increíbles y esto En parte hizo que los
- 00:32:46inversores pierdan un poco la fe en el
- 00:32:48crecimiento de envidia haciendo que
- 00:32:50también la empresa caiga en bolsa esta
- 00:32:51caía en bolsa hasta un cierto punto es
- 00:32:53normal no porque los mercados reaccionan
- 00:32:54super rápido a este tipo de noticias no
- 00:32:56significa que la empresa realmente haya
- 00:32:58bajado las ventas de forma directa pero
- 00:33:00sí que nos da mucho que pensar y bueno
- 00:33:02Después de todo esto yo creo que no cabe
- 00:33:03duda de que deeps para bien o para mal
- 00:33:05es impresionante a muchos niveles es un
- 00:33:07antes y un después en el mundo de la ia
- 00:33:09y es un modelo a seguir en muchos
- 00:33:11aspectos es impresionante que esto haya
- 00:33:13ocurrido en China o sea realmente es tan
- 00:33:15raro que haya pasado en China en
- 00:33:16concreto Bueno pues en mi opinión no O
- 00:33:18sea china es un país donde hay mucha
- 00:33:20gente mucha gente muy preparada con
- 00:33:22mucho talento hay universidades con
- 00:33:24muchos recursos y hay empresas que
- 00:33:25tienen mucho dinero mucho capital así
- 00:33:27que me parece tan tan raro que esto
- 00:33:29pueda llegar a pasar de hecho china es
- 00:33:31una potencia en Inteligencia artificial
- 00:33:32desde hace muchos años tienen centros de
- 00:33:34datos tienen grandes empresas
- 00:33:36tecnológicas y en general en algunos
- 00:33:38aspectos incluso están más avanzados
- 00:33:40respecto a lo que es Estados Unidos
- 00:33:42ahora la gran desventaja que tiene China
- 00:33:43respecto a Estados Unidos y esto es un
- 00:33:45punto clave de hecho voy a hacer un
- 00:33:46vídeo sobre este tema es que no puede
- 00:33:48fabricar chips tan avanzados esto es
- 00:33:50porque las fábricas más avanzadas del
- 00:33:52mundo están en Taiwán Estados Unidos
- 00:33:54Corea del Sur y algunos sitios más
- 00:33:56países que son aliados de Estados Unidos
- 00:33:58a los cuales se les ha prohibido
- 00:34:00compartir conocimientos maquinaria y
- 00:34:02otro tipo de cosas con China si china
- 00:34:04quiere chips tiene que pasar por caja
- 00:34:06comprarlos pagarlos e incluso sufrir
- 00:34:09restricciones como la que tiene con
- 00:34:10envidia no que no puede comprar gráficas
- 00:34:12igual de potentes que las que se venden
- 00:34:14en el resto del mundo si no fuera por
- 00:34:16eso si no fuera porque china no puede
- 00:34:17fabricar chips como los que fabrica amd
- 00:34:19Apple Sony Intel nvidia y muchas más
- 00:34:22pues es muy probable que las cosas
- 00:34:23fueran muy distintas y por eso Estados
- 00:34:25Unidos juega la carta que tiene vale que
- 00:34:27es poner restricciones comerciales están
- 00:34:29habiendo restricciones Incluso en cuanto
- 00:34:32a intercambios de estudiantes en
- 00:34:33universidades en cuanto a compartir
- 00:34:35conocimientos entre universidades de
- 00:34:37China y Estados Unidos para evitar que
- 00:34:39china pueda tener acceso a esas
- 00:34:40tecnologías que tiene Estados Unidos
- 00:34:42porque como os decía antes la ía viene
- 00:34:44del mundo universitario el mundo de la
- 00:34:45investigación que es un mundo donde el
- 00:34:47conocimiento se comparte y se desarrolla
- 00:34:49en conjunto independientemente del país
- 00:34:51donde estés O sea todos trabajan para
- 00:34:53avanzar a nivel global sin importar si
- 00:34:55estás en China en Estados Unidos en
- 00:34:56Taiwán o donde sea ahora al ver que
- 00:34:58china es una amenaza para la industria
- 00:35:00de la Inteligencia artificial una
- 00:35:01industria que lidera Estados Unidos el
- 00:35:03gobierno quiere poner todas las trabas
- 00:35:05que pueda a mí personalmente Y esta es
- 00:35:06mi opinión vale la comparación que se
- 00:35:08está haciendo con la guerra fría con la
- 00:35:10carrera espacial y todo esto a mí
- 00:35:11personalmente no me gusta no la veo tan
- 00:35:13parecida realmente vale porque comparar
- 00:35:15a China con la unión soviética creo que
- 00:35:17es un poco estúpido a veces la gente
- 00:35:19llega a pensar que china está por detrás
- 00:35:20cuando tienen empresas como Huawei que
- 00:35:23hacen productos increíbles y que
- 00:35:24literalmente han tenido que banear la
- 00:35:26porque prácticamente toda la
- 00:35:27infraestructura de redes era de Huawei
- 00:35:29incluyendo Estados Unidos O sea Estados
- 00:35:31Unidos no podía competir literalmente
- 00:35:33con Huawei o por ejemplo aplicaciones
- 00:35:35como tiktok que tiene un algoritmo que
- 00:35:36desde el principio ha demostrado que
- 00:35:38engancha muchísimo y que está a la
- 00:35:39altura de las redes sociales americanas
- 00:35:41Como por ejemplo Instagram Como por
- 00:35:43ejemplo Facebook y que también la han
- 00:35:44baneado aunque Bueno ahora está como en
- 00:35:46un periodo de gracia a ver qué pasa o
- 00:35:48incluso los coches chinos a los cuales
- 00:35:49se les está poniendo aranceles y así con
- 00:35:51muchas otras cosas que solo nos
- 00:35:52demuestran que china es igual o más
- 00:35:54competitiva a nivel de productos de
- 00:35:56tecnología que Estados Unidos y que la
- 00:35:57única forma de que no se quede con estos
- 00:35:59mercados es poniendo restricciones yo
- 00:36:01creo que Estados Unidos sigue siendo
- 00:36:02líder en ciertas cosas de momento pero
- 00:36:04que realmente se está aferrando a la
- 00:36:06única carta que puede jugar para
- 00:36:08mantener El dominio de las pocas áreas
- 00:36:10en las que todavía tiene cierto control
- 00:36:12del mercado y por eso todos estos baneos
- 00:36:14con la ia está pasando Exactamente lo
- 00:36:16mismo pero bueno Este es un tema que da
- 00:36:18para un debate muy largo Yo también en
- 00:36:19este vídeo me quería centrar en los
- 00:36:21logros tecnológicos en todo aquello que
- 00:36:23aporta a nivel tecnológico deeps y no
- 00:36:25tanto en un debate de China contra
- 00:36:26Estados Unidos pero sí que me gustaría
- 00:36:28hacer un vídeo hablando de los chips
- 00:36:29porque realmente es el tema más caliente
- 00:36:31es una tecnología mucho más difícil de
- 00:36:33dominar y es realmente el punto de olor
- 00:36:35que tiene China mucho más allá de la
- 00:36:36Inteligencia artificial Lo que pasa que
- 00:36:38es tan complejo que muchas veces pues no
- 00:36:40nos hablan de él no porque hace falta
- 00:36:42tener un conocimiento más profundo para
- 00:36:43entender realmente Dónde está el
- 00:36:45problema no a la hora de fabricar estos
- 00:36:46chips pero quiero hacer un vídeo sobre
- 00:36:48el tema así que si te interesa Este
- 00:36:49vídeo Dímelo abajo en los comentarios en
- 00:36:51fin y aquí nos quedamos si te ha gustado
- 00:36:53este vídeo ya sabes déjame una manito
- 00:36:54para arriba suscríbete al Canal y nos
- 00:36:55vemos en el próximo vídeo
- 00:37:04for
- 00:37:10[Música]
- Liang We Feng
- trading cuantitativo
- inteligencia artificial
- Deep Seic
- High Flyer
- mercados financeiros
- Nvidia
- modelo de IA
- open source
- optimización de datos