00:00:00
Open Ai o3 qué es esto de o3 es el nuevo
00:00:05
modelo que saca Open Ai pero un modelo
00:00:08
que ha llamado la atención por
00:00:10
muchísimas pero muchísimas cosas esto ha
00:00:13
sido el último anuncio de los 12 días de
00:00:15
navidad de Open que cada día han
00:00:17
anunciado han hecho un nuevo anuncio
00:00:19
sobre la plataforma sobre los productos
00:00:21
y tal y el último día ha sido un nuevo
00:00:23
modelo y este nuevo modelo no es un
00:00:25
modelo cualquiera estamos hablando que
00:00:27
el modelo de o3 pasa el benchmark de
00:00:30
software engineer el verificado en un
00:00:32
71,7 por donde o1 que era el modelo más
00:00:37
avanzado que tenían que además razonaba
00:00:39
se supone que luego os explicaré una
00:00:41
cosa de esto de razonamiento que me
00:00:42
pareció muy interesante cuando me lo
00:00:43
explicaron pasab un 48.9 estamos
00:00:46
hablando de una subida de golpe de casi
00:00:50
el 23 por una pasada y en competición de
00:00:54
código en code forces pasa de 1891 a
00:00:58
27 27 vale un modelo Que obviamente como
00:01:04
resultados tiene unos resultados
00:01:06
espectaculares pero claro No solo
00:01:08
hablamos de los resultados de hecho
00:01:10
ahora viene la gente que ha hecho los
00:01:11
benchmarks también en competiciones de
00:01:12
matemáticas 96,7 y un brinco también
00:01:15
Incluso en el nivel de ciencia de phd al
00:01:18
87,7 tiene más benchmarks por aquí de
00:01:21
investigación de matemáticas Es la
00:01:23
primera vez que hay un salto tan
00:01:25
significativo que pasa el 25,2 de
00:01:28
precisión que antes estaba en el 2.0 o
00:01:31
sea espectacular aquí viene gente pues
00:01:34
hablando de los benchmarks Y estos ahora
00:01:36
que antiguamente pues no se podían pasar
00:01:38
y así que se pasan y aquí tenemos el
00:01:41
rendimiento y ojo cuidado porque aquí es
00:01:43
donde viene el tema interesante vale
00:01:46
porque aquí tendríamos esta parte roja
00:01:48
sería el o1 series es el que tendríamos
00:01:51
ahora mismo vale Y el o1 mini sería este
00:01:55
como el el más rápido tendríamos Cuánta
00:01:57
computación necesita por tarea
00:01:59
computación digamos son ciclos de
00:02:01
computación procesador O procesador que
00:02:04
puede ser gráfico puede ser cpu lo que
00:02:05
sea pero para hacer la tarea Cuánta
00:02:07
computación necesita claro esto sería el
00:02:11
horizontal y tendríamos el vertical que
00:02:13
sería la puntuación que tiene en el
00:02:16
benchmark de agi semiprivado semiprivado
00:02:19
quiere decir que hay algunos algunos por
00:02:21
lo que sea que que algunos test son
00:02:24
públicos y por lo tanto puedes tener
00:02:26
cierta ventaja porque puedes entrenar al
00:02:28
modelo Pero los que son privados no
00:02:30
sabes cómo son Aunque eso también es un
00:02:32
poco polémico porque aunque sea privado
00:02:34
sí que se lo envías al modelo y si el
00:02:35
modelo de alguna forma aprende de ello
00:02:38
pues hay que tener en cuenta que claro
00:02:40
no se sabe si está tan privado Pero
00:02:41
bueno eso ya es más filosófico el tema
00:02:44
el o1 mínimo o1 mini es el que tiene
00:02:48
menos computación Pero también es el que
00:02:50
tiene menos puntuación en cambio el o3
00:02:53
low estaría un 75 pero el H llega al
00:02:57
87,5 por pero fijaos en la computación
00:03:01
que necesita como a la derecha está Y
00:03:04
esto qué quiere decir antes de segir de
00:03:06
qué es lo que quiere decir os voy a
00:03:07
comentar una cosa Esto está ahora mismo
00:03:10
totalmente en beta privada vale todavía
00:03:13
no está público para todo el mundo lo
00:03:15
podéis probar lo podéis utilizar pero
00:03:17
tenéis que pedir acceso porque no está
00:03:20
abierto para todo el mundo lo cual Bueno
00:03:22
pues tiene sentido Pero es el modelo más
00:03:24
avanzado hasta el momento que se ha
00:03:26
publicado en en todos los aspectos ahora
00:03:29
ves van a sacarlo el próximo año lo
00:03:31
están abriendo para aplicaciones
00:03:34
privadas lo están haciendo por dicen que
00:03:35
por temas de seguridad investigación y
00:03:37
tal para poder probar Cuáles son los
00:03:39
límites que puedan tener ahora bien Qué
00:03:41
significa Esa esa gráfica El precio por
00:03:44
tarea cuánto de precio por tarea estamos
00:03:46
hablando hay gente que ha hecho un
00:03:49
cálculo más o menos teniendo en cuenta
00:03:52
por dónde están los modelos actuales
00:03:54
vale por dónde están los modelos
00:03:56
actuales y podríamos poner que aquí
00:03:58
sería ó vale Y aquí tendríamos esta
00:04:00
tarea que la tarea con o1 mini Pues
00:04:02
sería a lo mejor unos pocos céntimos de
00:04:05
dólar con el o1 en alto pues ya
00:04:08
podríamos estar casi $ la tarea pero es
00:04:11
que estamos hablando que el o3 sería una
00:04:14
tarea más de 1,000 no se sabe
00:04:17
exactamente Cuánto ya os digo que esto
00:04:19
es un estimado del coste por tarea
00:04:21
hablan que podría ser entre 1000 y y
00:04:25
5000 una tarea Qué sería una tarea una
00:04:27
tarea Pues sería uno de los benchmarks
00:04:29
de solucionar una tarea de decirle vale
00:04:31
Tengo este problema y este problema
00:04:33
funciona así así asá quiero que me
00:04:35
resuelvas este problema de forma que bla
00:04:38
bla blaa Bla eso sería una tarea Pues
00:04:40
eso lo tienes para resolver un problema
00:04:42
ahí tendrías una tarea y serían de 1000
00:04:44
a 5000 vale ese precio de dónde viene de
00:04:47
Electricidad más que la electricidad que
00:04:49
la electricidad podría ser una parte
00:04:50
pero lo más importante obviamente la
00:04:52
computación ahora bien a ver hay gente
00:04:54
que ya aquí mucha gente dice pues no le
00:04:56
pued a quitar el trabajo nunca Pues no
00:04:58
sé qué que no sé cuánto a ver ni una
00:05:00
cosa ni otra Vale y os voy a explicar
00:05:01
por qué Por un lado porque realmente
00:05:03
esto no deja de ser también que a mucha
00:05:06
gente se le pasa por encima hay también
00:05:07
un modelo más simple que lo tenemos por
00:05:10
aquí este de aquí el o3 Slow este de
00:05:12
aquí que sería como que también tieneen
00:05:15
uno el pequeñito pero que hay que tener
00:05:18
en cuenta que el o3 pequeño está O sea
00:05:22
fijaos la diferencia que hay y de de
00:05:26
precio tampoco es tan diferencial de
00:05:28
hecho y lo comenta el propio Sam alman
00:05:31
el o3 mini es más barato que el o1 y en
00:05:36
cambio le van a bajar el precio vale o
00:05:38
sea que ojo cuidado porque el o3 mini se
00:05:40
supone que es más rápido más inteligente
00:05:42
y más barato que lo o1 que es el que
00:05:44
tenemos hoy y que claro que ojo cuidado
00:05:46
porque es verdad que el o3 es superco es
00:05:49
muy inteligente que se nos va un poco de
00:05:52
madre pero el o3 mini ya es mejor que lo
00:05:54
uno dice Espero que esta tendencia
00:05:56
continúe pero también que la capacidad
00:05:57
de tener un rendimiento marginalmente
00:05:59
mayor por un dinero especialmente mayor
00:06:00
sea realmente será extraña claro eso va
00:06:03
a ser raro que esto siempre esté
00:06:04
constantemente va a ser difícil que
00:06:06
estemos ahí constantemente llegará un
00:06:08
momento que el límite de las ganancias
00:06:11
serán más marginales pero es verdad que
00:06:13
aunque hay mucha gente que también le
00:06:15
preocupa de buah Es que esto cuesta 1000
00:06:17
de 1000 a 5,000 y todo esto hay que
00:06:19
tener en cuenta también una cosa y es
00:06:21
que los precios los costes van a estar
00:06:23
en bajada constantemente aquí no sale no
00:06:26
sale muy bien los costes pero claro
00:06:28
imaginaos esto Mira coste por tarea
00:06:31
3440 3000 Mirad para que os hagáis una
00:06:35
idea para ejecutar toda la batería de
00:06:38
benchmark han tenido que gastar un
00:06:40
millón de dólares no lo digo yo lo dice
00:06:42
aquí chubi dice como se ha dicho ya los
00:06:44
elevados costes de computación de o3 son
00:06:47
una locura más de 3,000 por un solo
00:06:49
rompecabezas de ark agi más de 1 millón
00:06:52
de dólares para ejecutar todo el
00:06:54
benchmark a ver obviamente esto es ahora
00:06:57
pero estos costes pues Irán bajando o
00:06:59
sea esto Ahora lo vemos muy caro
00:07:02
imposible y tal Y luego irá bajando irá
00:07:04
bajando y tal también Es verdad que
00:07:06
ahora mismo lo que se está haciendo es
00:07:07
llegar o intentar llevarlo al límite y
00:07:10
ahora el problema es que tenemos el
00:07:11
embudo es la computación el el O sea no
00:07:14
tenemos computación suficiente para
00:07:17
ejecutar todo lo que necesitamos
00:07:19
ejecutar y este es el problema que vamos
00:07:21
a tener que realmente no vamos a tener
00:07:23
eh
00:07:24
suficientes recursos para ejecutar todo
00:07:27
esto así que vamos a ver cómo va esto
00:07:29
para para que esto provoque una crisis
00:07:30
de desempleo en deps no tiene que
00:07:32
necesariamente reemplazar el dep solo
00:07:34
hace falta que incremente la
00:07:35
productividad del dep de esa manera con
00:07:36
dos deps con llm haces que antes hacías
00:07:38
con ocho sin llm lo que el empresario le
00:07:40
da oportunidad de despedir a seis deps
00:07:42
del Team y ahorrarse los salarios
00:07:44
siempre y cuando el precio del lm sea
00:07:45
más barato a ver Android te voy a contar
00:07:48
una cosa porque eso es una cosa que
00:07:49
mucha gente dice y yo lo veo lo veo de
00:07:52
otra forma mucha gente dice claro es que
00:07:54
si mejoras la productividad Pues claro
00:07:56
Eh Vas a echar gente porque no sé s
00:07:58
cuánto y tiene razón que puede ser un
00:08:00
punto pero también Es verdad que la
00:08:02
mejora de productividad al menos en el
00:08:04
mundo de la tecnología y la programación
00:08:05
especialmente ha sido constante quiero
00:08:08
decir la mejora de la productividad ya
00:08:09
la hemos visto no es lo mismo como hemos
00:08:11
programado hace 50 años como programamos
00:08:14
con cassettes con disquetes a papel o
00:08:17
sea 1 millones de historias la
00:08:19
productividad si la comparas con
00:08:20
Entonces se ha disparado desde
00:08:22
bibliotecas frameworks de hecho y voy a
00:08:25
decir una cosa muy polémica pero yo
00:08:27
Considero que la mejora de actividad que
00:08:29
hemos tenido de aquí a 50 años es mucho
00:08:32
mayor que la la que nos pueden dar los
00:08:35
llm de aquí a dos o TR años o 5 años en
00:08:38
mi opinión de cómo programamos hace 50
00:08:41
años o 20 años vale a cómo vamos a
00:08:43
programar dentro de 5 años creo que la
00:08:45
productividad ha sido mucho más
00:08:47
bestialmente mejorada y sin embargo ha
00:08:50
ido creciendo la demanda porque los
00:08:52
retos a los que nos vamos a enfrentar se
00:08:54
van a complicar van a ser más difíciles
00:08:56
vamos a hacer cosas más más complicadas
00:08:58
más difíciles en el sentido sentido de
00:08:59
que a lo mejor los problemas a los que
00:09:01
nos vamos a enfrentar mañana no son los
00:09:02
problemas que nos vamos a enfrentar hoy
00:09:04
o que sabemos hoy que existen igual que
00:09:06
hace 50 años entonces yo entiendo que lo
00:09:08
veamos así porque tien razón que va a
00:09:10
mejorar la productividad Pero por otro
00:09:12
lado también Creo que se nos olvida que
00:09:14
la mejora de productividad ha ocurrido
00:09:16
constantemente y pese a ello no ha
00:09:19
dejado de ocurrir que ha crecido porque
00:09:23
al final no va a desaparecer de repente
00:09:26
el tema de las la tecnología y toda la
00:09:29
digitalización que necesitamos por más
00:09:31
que quizás programemos menos pero por
00:09:34
más que programemos menos todavía la
00:09:36
programación como tal o la ingeniería de
00:09:38
software aunque sea en inglés que
00:09:40
pongamos que dentro de 20 años será con
00:09:42
solo proms va a seguir ocurriendo es mi
00:09:44
opinión eh creo que se nos olvida que
00:09:47
realmente va a evolucionar cómo nos
00:09:48
vamos a enfrentar a nuevos problemas que
00:09:51
yo sé que mucha gente lo ve como vamos a
00:09:52
tener los mismos problemas que hoy pero
00:09:54
el tema es que si hacer una landing es
00:09:56
un promt Entonces no haremos landings
00:09:58
haremos otras cosas todavía más
00:09:59
difíciles porque esto ha existido ya
00:10:02
desde hace 20 años el hecho de que a mí
00:10:04
una agi o un un modelo me haga una
00:10:07
landing o me resuelva cosas que puedo
00:10:09
encontrar en Gap para mí no es un
00:10:10
problema midu no me quiero quedar sin
00:10:12
chamba no te vas a quedar sin chamba Ya
00:10:14
veréis eh el tema de los costos me
00:10:15
recuerda cuando salieron los primeros
00:10:16
móviles con pantalla táctil que eran
00:10:18
caros pero con el tiempo se consiguió
00:10:19
mejorar no solo en Materiales sino en
00:10:20
capacidad totalmente y no pasaron ni 20
00:10:23
años de eso totalmente Es que yo creo
00:10:24
que estamos justamente en el punto dulce
00:10:27
de la Inteligencia artificial en eso de
00:10:29
de que vamos a ver un montón de mejoras
00:10:30
de coste de de computación de modelo y
00:10:34
todo esto y igual que los móviles yo
00:10:36
creo que también llegaremos un punto en
00:10:37
el que se estancará de alguna forma yo
00:10:39
creo que habrá cada vez las ganancias
00:10:43
Irán bajando y tal de hecho y os voy a
00:10:45
contar tema polémico también vale Para
00:10:47
que veamos esto tiene muy buena pinta yo
00:10:49
no soy para nada o sea creo que tiene
00:10:51
muy muy buena Pinta y creo que el coste
00:10:53
bajará esto es una cosa que ya sabemos
00:10:55
el coste poco a poco pues irá bajando
00:10:57
obviamente aquí hay gente que lo sera
00:10:59
como agi como agi como una inteligencia
00:11:01
ya general y todo esto yo esto todavía
00:11:06
no lo veo como razonamiento de hecho a
00:11:09
ver voy a decir una cosa un poco
00:11:10
polémica Pero esto me lo dijo alguien
00:11:12
que de buena tinta eh que dice que
00:11:16
muchos de estos o1 o3 y todo esto que en
00:11:20
realidad lo que hacen de alguna forma es
00:11:22
que son muy inteligentes y tardan mucho
00:11:25
tiempo porque al final se le da como más
00:11:27
tiempo para pensar o para masticar lo
00:11:30
que están haciendo que en realidad Está
00:11:31
utilizando la misma técnica que tiene
00:11:33
gpt 4o pero lo que hace es como que el
00:11:36
prom que se le pasa es como que se nutra
00:11:39
de la propia respuesta que está haciendo
00:11:41
para que pueda reflexionar sobre lo que
00:11:43
él mismo ha creado Entonces se le vuela
00:11:46
a pasar para ver si además encaja en el
00:11:49
resultado esperado que por eso Funciona
00:11:52
muy bien cuando tienes como un test
00:11:54
porque al final si tú tienes un
00:11:56
benchmark y lo que esperas Es un un
00:11:59
resultado en concreto cuando te ha te da
00:12:01
el resultado y lo puedes ejecutar porque
00:12:03
ahora muchos tienen code runners donde
00:12:06
Ejecutan eso y al ejecutarlo no te da se
00:12:08
puede retroalimentar de lo que ha hecho
00:12:10
para intentarlo con otro approach
00:12:12
diferente y por eso muchas veces como
00:12:14
que tarda mucho no Entonces no es que
00:12:16
esté razonando como que es pensante a lo
00:12:19
mejor estamos de alguna forma simulando
00:12:21
el razonamiento humano Obviamente que no
00:12:23
digo que no vaya a existir pero que esto
00:12:25
no es exactamente lo que sería el
00:12:26
razonamiento como tal no el test de zumi
00:12:28
es primer la respuesta para sacarle el
00:12:30
ácido Pulp tuya solo le pregunté la hora
00:12:32
bueno Eh Al final eso el o1 funciona
00:12:35
bajo three of thrs es que al final Yo
00:12:38
creo que es un poco esto luego también
00:12:40
una cosa que es bastante interesante que
00:12:41
hay gente que ha dicho ostia ojo cuidado
00:12:43
con esto zpid dice Cuanto más miras el
00:12:45
ot de Open e Ey menos impresionante
00:12:47
parece primero el coste de miles de
00:12:49
dólares por tarea Luego descubrimos que
00:12:51
la partitura bueno partitura le llama
00:12:53
aquí pero dice más que partitura Es que
00:12:56
la puntuación es de una versión
00:12:58
optimizada de o3
00:13:01
específicamente preparada para el
00:13:03
desafío del Arco por último ni siquiera
00:13:07
es el desafío del Arco que todos
00:13:08
conocemos sino que es un Jason es que el
00:13:11
desafío lo han transformado en un Jason
00:13:13
y se lo han pasado como un Jason claro
00:13:15
le han pasado esto claro esto es mucho
00:13:17
más fácil de que lo pueda solucionar
00:13:20
claro aquí hay gente dice creo que lo
00:13:21
están malinterpretando porque lo
00:13:23
importante no sé qué no sé cuánto y dice
00:13:25
no es que a ver eh No es científico lo
00:13:27
que están haciendo porque el tema es que
00:13:29
el Cómo se presenta el problema que es
00:13:32
un problema visual al final dice claro
00:13:35
ojo porque entonces no es no O sea no
00:13:39
tiene mucho mucho sentido porque se
00:13:41
supone que es visual eso lo tiene que
00:13:42
transformar lo tiene que tratar al final
00:13:44
se lo está dando masticado Y encima aquí
00:13:47
lo pone tunet tunet que esté tuneado
00:13:50
para un problema en concreto eh No creo
00:13:53
que sea realmente la forma correcta de
00:13:56
sacar datos que no significa que no sea
00:13:59
an Igualmente vale Pero aún así claro le
00:14:01
baja un poquito el hype ha habido
00:14:03
bastante polémica sobre esto como que ha
00:14:05
sido resultados bastantes cocinados y
00:14:08
que incluso hay algunos que no ha podido
00:14:10
llegar a solucionar como tres en su
00:14:12
coste máximo no ha podido solucionar
00:14:14
este de aquí no a ver hay algunos que ya
00:14:15
sabemos que todavía nos ha podido
00:14:17
solucionar ya sabemos que cuesta mucho
00:14:19
hay gente que comenta que como Google se
00:14:21
ha puesto las pilas con gemini que ha
00:14:23
mejorado muchísimo con gemini 2.0 con
00:14:27
todo el tema de la multim modalidad el
00:14:29
de vídeo y tal que han necesitado un
00:14:32
efecto Wow y se han visto forzados de
00:14:36
alguna forma a maquillar bastante los
00:14:39
resultados para poder estar otra vez en
00:14:41
la delantera no lo sé yo creo que hay
00:14:43
que darle tiempo para ver realmente cómo
00:14:45
Este modelo funciona por el público en
00:14:48
general por los científicos Más allá de
00:14:50
lo que nos pueda demostrar una persona
00:14:51
por ahí y y ya está pero es verdad que
00:14:55
así a corto plazo que veamos nosotros no
00:14:57
lo vamos a poder utilizar con el coste
00:14:59
que tiene sí que parece algo una
00:15:01
evolución bastante interesante y veremos
00:15:03
Cómo continúa la cosa mid haría vídeos
00:15:05
profundos de ya tipo implementación de
00:15:07
nns cnns etcétera la verdad Kate haría
00:15:11
sí que lo haría tendría que aprender
00:15:13
tendría que aprender mucho de hecho es
00:15:14
una cosa de 2025 que sí que ha empezado
00:15:16
a aprender algunas cositas y me gustaría
00:15:18
porque le quiero quiero hacer el curso
00:15:20
de python y después de hacer el curso de
00:15:22
python me gustaría hacer alguna cosa de
00:15:23
Inteligencia artificial aquí en directo
00:15:25
Así que no lo descarto y puede ser que
00:15:28
ocurra algú momento