OpenAI o3 es BRUTAL

00:15:36
https://www.youtube.com/watch?v=nGjalsEUY-k

Résumé

TLDROpen AI anunciou o seu novo modelo de Intelixencia Artificial chamado O3, que destacou significativamente en varios benchmarks, superando ao seu predecesor O1 en áreas como enxeñería de software. A pesar dos seus impresionantes resultados, o modelo O3 require unha grande cantidade de computación, resultando nun elevado custo por tarefa, estimado entre 1000 e 5000 dólares. Debido a estes desafíos, o modelo aínda está en fase beta privada e só accesible para selectos usuarios. Ademais, enfróntase a cuestións sobre se este tipo de tecnoloxía pode afectar o emprego dos desenvolvedores de software, aínda que se argumenta que istes avances poden aumentar a produtividade sen necesariamente reducir a demanda de desenvolvedores. Así mesmo, o modelo O3 enfróntase á competencia doutros modelos avanzados, coma o Gemini de Google. Espérase que o custo e o acceso ao modelo melloren co tempo grazas a innovacións tecnolóxicas.

A retenir

  • 🚀 O modelo O3 de Open AI realiza melloras significativas en benchmarks.
  • 💰 O custo por tarefa co O3 pode ser moi elevado, entre 1000 e 5000 dólares.
  • 🔒 Actualmente, o O3 está en fase beta privada e non accesible para o público xeral.
  • 📈 O O3 supera en rendemento ao modelo anterior O1.
  • 🧮 A capacidade de computación necesaria para o O3 é un dos seus maiores retos.
  • 🤖 Modelos avanzados coma o Gemini de Google son competencia directa do O3.
  • 🛠 A produtividade dos desenvolvedores podería mellorar con esta tecnoloxía.
  • 🔄 Espéranse baixadas nos custos e melloras de acceso co tempo.
  • 🧪 Continúan as probas para entender os límites e capacidades do O3.
  • 🗨 Existen discusións sobre o impacto desta tecnoloxía no mercado laboral dos desenvolvedores.

Chronologie

  • 00:00:00 - 00:05:00

    O novo modelo Open AI, denominad O3, foi anunciado como un avance significativo en relación cos seus predecesores, como o O1. Este novo modelo destaca polo seu impresionante mellora nos resultados de diferentes benchmarks, alcanzando un 71,7 en enxeñería de software, fronte ao 48,9 do modelo anterior. Ademais, en competicións de código e matemáticas tamén logrou incrementos notables. A pesar destes resultados, o modelo require unha cantidade substancial de computación, especialmente na versión O3 alta, o que levanta preguntas sobre a súa eficiencia en termos de custo.

  • 00:05:00 - 00:10:00

    O modelo O3 está actualmente en fase beta privada, o que significa que non está dispoñible para o público xeral. Existe unha versión O3 mini que se afirma que é máis barata e rápida que o O1. Con todo, discútese o potencial impacto destes modelos en termos de produtividade e custes, cunha preocupación de que aínda que os custos iniciais de execución son elevados, co tempo se espera que diminúan. O enfoque do modelo O3 non só mellora a produtividade potencialmente pero tamén podería afectar ao mercado laboral, reducindo a necesidade de desenvolvedores, aínda que outros argumentan que a demanda en tecnoloxía pode continuar a medrar.

  • 00:10:00 - 00:15:36

    O modelo O3 de Open AI está a suscitar certa polémica sobre os métodos utilizados para optimizar os seus resultados, en concreto, en tarefas específicas con configuracións afinadas. A pesar de que os custos por tarefa e a complexidade de computación son temas importantes, o custo de execución estímase actualmente en miles de dólares por tarefa, algo que podería ser prohibitivo para moitos usuarios. Mentres tanto, hai debate sobre a veracidade dos resultados presentados, con suxestións de que poderían estar exagerados para contrarrestar a competencia doutras iniciativas como Gemini de Google. A comunidade científica e os usuarios en xeral están a espera de probas máis abertas e transparentes para avaliar o real potencial e utilidade do modelo O3.

Carte mentale

Vidéo Q&R

  • ¿Qué es el modelo O3 de Open AI?

    El modelo O3 es un nuevo modelo de inteligencia artificial de Open AI que muestra mejoras significativas en benchmarks de ingeniería de software y otras áreas.

  • ¿Cuánto cuesta ejecutar una tarea con el modelo O3?

    Se estima que una tarea con el modelo O3 podría costar entre 1000 y 5000 dólares debido a los altos requerimientos computacionales.

  • ¿Está el modelo O3 disponible para el público?

    No, actualmente el modelo O3 está en fase beta privada y no es accesible para todo el público.

  • ¿Qué mejoras tiene el modelo O3 sobre el O1?

    El modelo O3 tiene una mejora significativa en benchmarks como el de ingenieros de software, superando el rendimiento de O1 por un buen margen.

  • ¿Por qué es tan caro el uso del modelo O3?

    El alto costo de usar O3 se debe principalmente a la gran cantidad de computación necesaria, lo cual incluye altos costos de electricidad y procesamiento.

  • ¿Qué se está haciendo para reducir los costos de O3?

    Se espera que con el tiempo los costos vayan disminuyendo debido a mejoras en la tecnología y eficiencia de los modelos de inteligencia artificial.

  • ¿Cuál es el impacto potencial de O3 en el empleo de desarrolladores?

    Podría incrementar la productividad, pero no necesariamente eliminar empleos. La tecnología ha aumentado la productividad históricamente sin reducir significativamente la demanda de desarrolladores.

  • ¿Cómo se compara O3 con otros modelos en el mercado?

    O3 es considerado avanzadísimo, pero enfrenta competencia de modelos como Gemini de Google que han mejorado rápidamente.

  • ¿Cuándo se espera que O3 esté disponible para más usuarios?

    Se está abriendo para aplicaciones privadas y podría estar más disponible el próximo año.

  • ¿Qué desafíos enfrenta la implementación del modelo O3?

    Uno de los desafíos principales es la limitada capacidad de computación disponible para ejecutar eficientemente el modelo a gran escala.

Voir plus de résumés vidéo

Accédez instantanément à des résumés vidéo gratuits sur YouTube grâce à l'IA !
Sous-titres
es
Défilement automatique:
  • 00:00:00
    Open Ai o3 qué es esto de o3 es el nuevo
  • 00:00:05
    modelo que saca Open Ai pero un modelo
  • 00:00:08
    que ha llamado la atención por
  • 00:00:10
    muchísimas pero muchísimas cosas esto ha
  • 00:00:13
    sido el último anuncio de los 12 días de
  • 00:00:15
    navidad de Open que cada día han
  • 00:00:17
    anunciado han hecho un nuevo anuncio
  • 00:00:19
    sobre la plataforma sobre los productos
  • 00:00:21
    y tal y el último día ha sido un nuevo
  • 00:00:23
    modelo y este nuevo modelo no es un
  • 00:00:25
    modelo cualquiera estamos hablando que
  • 00:00:27
    el modelo de o3 pasa el benchmark de
  • 00:00:30
    software engineer el verificado en un
  • 00:00:32
    71,7 por donde o1 que era el modelo más
  • 00:00:37
    avanzado que tenían que además razonaba
  • 00:00:39
    se supone que luego os explicaré una
  • 00:00:41
    cosa de esto de razonamiento que me
  • 00:00:42
    pareció muy interesante cuando me lo
  • 00:00:43
    explicaron pasab un 48.9 estamos
  • 00:00:46
    hablando de una subida de golpe de casi
  • 00:00:50
    el 23 por una pasada y en competición de
  • 00:00:54
    código en code forces pasa de 1891 a
  • 00:00:58
    27 27 vale un modelo Que obviamente como
  • 00:01:04
    resultados tiene unos resultados
  • 00:01:06
    espectaculares pero claro No solo
  • 00:01:08
    hablamos de los resultados de hecho
  • 00:01:10
    ahora viene la gente que ha hecho los
  • 00:01:11
    benchmarks también en competiciones de
  • 00:01:12
    matemáticas 96,7 y un brinco también
  • 00:01:15
    Incluso en el nivel de ciencia de phd al
  • 00:01:18
    87,7 tiene más benchmarks por aquí de
  • 00:01:21
    investigación de matemáticas Es la
  • 00:01:23
    primera vez que hay un salto tan
  • 00:01:25
    significativo que pasa el 25,2 de
  • 00:01:28
    precisión que antes estaba en el 2.0 o
  • 00:01:31
    sea espectacular aquí viene gente pues
  • 00:01:34
    hablando de los benchmarks Y estos ahora
  • 00:01:36
    que antiguamente pues no se podían pasar
  • 00:01:38
    y así que se pasan y aquí tenemos el
  • 00:01:41
    rendimiento y ojo cuidado porque aquí es
  • 00:01:43
    donde viene el tema interesante vale
  • 00:01:46
    porque aquí tendríamos esta parte roja
  • 00:01:48
    sería el o1 series es el que tendríamos
  • 00:01:51
    ahora mismo vale Y el o1 mini sería este
  • 00:01:55
    como el el más rápido tendríamos Cuánta
  • 00:01:57
    computación necesita por tarea
  • 00:01:59
    computación digamos son ciclos de
  • 00:02:01
    computación procesador O procesador que
  • 00:02:04
    puede ser gráfico puede ser cpu lo que
  • 00:02:05
    sea pero para hacer la tarea Cuánta
  • 00:02:07
    computación necesita claro esto sería el
  • 00:02:11
    horizontal y tendríamos el vertical que
  • 00:02:13
    sería la puntuación que tiene en el
  • 00:02:16
    benchmark de agi semiprivado semiprivado
  • 00:02:19
    quiere decir que hay algunos algunos por
  • 00:02:21
    lo que sea que que algunos test son
  • 00:02:24
    públicos y por lo tanto puedes tener
  • 00:02:26
    cierta ventaja porque puedes entrenar al
  • 00:02:28
    modelo Pero los que son privados no
  • 00:02:30
    sabes cómo son Aunque eso también es un
  • 00:02:32
    poco polémico porque aunque sea privado
  • 00:02:34
    sí que se lo envías al modelo y si el
  • 00:02:35
    modelo de alguna forma aprende de ello
  • 00:02:38
    pues hay que tener en cuenta que claro
  • 00:02:40
    no se sabe si está tan privado Pero
  • 00:02:41
    bueno eso ya es más filosófico el tema
  • 00:02:44
    el o1 mínimo o1 mini es el que tiene
  • 00:02:48
    menos computación Pero también es el que
  • 00:02:50
    tiene menos puntuación en cambio el o3
  • 00:02:53
    low estaría un 75 pero el H llega al
  • 00:02:57
    87,5 por pero fijaos en la computación
  • 00:03:01
    que necesita como a la derecha está Y
  • 00:03:04
    esto qué quiere decir antes de segir de
  • 00:03:06
    qué es lo que quiere decir os voy a
  • 00:03:07
    comentar una cosa Esto está ahora mismo
  • 00:03:10
    totalmente en beta privada vale todavía
  • 00:03:13
    no está público para todo el mundo lo
  • 00:03:15
    podéis probar lo podéis utilizar pero
  • 00:03:17
    tenéis que pedir acceso porque no está
  • 00:03:20
    abierto para todo el mundo lo cual Bueno
  • 00:03:22
    pues tiene sentido Pero es el modelo más
  • 00:03:24
    avanzado hasta el momento que se ha
  • 00:03:26
    publicado en en todos los aspectos ahora
  • 00:03:29
    ves van a sacarlo el próximo año lo
  • 00:03:31
    están abriendo para aplicaciones
  • 00:03:34
    privadas lo están haciendo por dicen que
  • 00:03:35
    por temas de seguridad investigación y
  • 00:03:37
    tal para poder probar Cuáles son los
  • 00:03:39
    límites que puedan tener ahora bien Qué
  • 00:03:41
    significa Esa esa gráfica El precio por
  • 00:03:44
    tarea cuánto de precio por tarea estamos
  • 00:03:46
    hablando hay gente que ha hecho un
  • 00:03:49
    cálculo más o menos teniendo en cuenta
  • 00:03:52
    por dónde están los modelos actuales
  • 00:03:54
    vale por dónde están los modelos
  • 00:03:56
    actuales y podríamos poner que aquí
  • 00:03:58
    sería ó vale Y aquí tendríamos esta
  • 00:04:00
    tarea que la tarea con o1 mini Pues
  • 00:04:02
    sería a lo mejor unos pocos céntimos de
  • 00:04:05
    dólar con el o1 en alto pues ya
  • 00:04:08
    podríamos estar casi $ la tarea pero es
  • 00:04:11
    que estamos hablando que el o3 sería una
  • 00:04:14
    tarea más de 1,000 no se sabe
  • 00:04:17
    exactamente Cuánto ya os digo que esto
  • 00:04:19
    es un estimado del coste por tarea
  • 00:04:21
    hablan que podría ser entre 1000 y y
  • 00:04:25
    5000 una tarea Qué sería una tarea una
  • 00:04:27
    tarea Pues sería uno de los benchmarks
  • 00:04:29
    de solucionar una tarea de decirle vale
  • 00:04:31
    Tengo este problema y este problema
  • 00:04:33
    funciona así así asá quiero que me
  • 00:04:35
    resuelvas este problema de forma que bla
  • 00:04:38
    bla blaa Bla eso sería una tarea Pues
  • 00:04:40
    eso lo tienes para resolver un problema
  • 00:04:42
    ahí tendrías una tarea y serían de 1000
  • 00:04:44
    a 5000 vale ese precio de dónde viene de
  • 00:04:47
    Electricidad más que la electricidad que
  • 00:04:49
    la electricidad podría ser una parte
  • 00:04:50
    pero lo más importante obviamente la
  • 00:04:52
    computación ahora bien a ver hay gente
  • 00:04:54
    que ya aquí mucha gente dice pues no le
  • 00:04:56
    pued a quitar el trabajo nunca Pues no
  • 00:04:58
    sé qué que no sé cuánto a ver ni una
  • 00:05:00
    cosa ni otra Vale y os voy a explicar
  • 00:05:01
    por qué Por un lado porque realmente
  • 00:05:03
    esto no deja de ser también que a mucha
  • 00:05:06
    gente se le pasa por encima hay también
  • 00:05:07
    un modelo más simple que lo tenemos por
  • 00:05:10
    aquí este de aquí el o3 Slow este de
  • 00:05:12
    aquí que sería como que también tieneen
  • 00:05:15
    uno el pequeñito pero que hay que tener
  • 00:05:18
    en cuenta que el o3 pequeño está O sea
  • 00:05:22
    fijaos la diferencia que hay y de de
  • 00:05:26
    precio tampoco es tan diferencial de
  • 00:05:28
    hecho y lo comenta el propio Sam alman
  • 00:05:31
    el o3 mini es más barato que el o1 y en
  • 00:05:36
    cambio le van a bajar el precio vale o
  • 00:05:38
    sea que ojo cuidado porque el o3 mini se
  • 00:05:40
    supone que es más rápido más inteligente
  • 00:05:42
    y más barato que lo o1 que es el que
  • 00:05:44
    tenemos hoy y que claro que ojo cuidado
  • 00:05:46
    porque es verdad que el o3 es superco es
  • 00:05:49
    muy inteligente que se nos va un poco de
  • 00:05:52
    madre pero el o3 mini ya es mejor que lo
  • 00:05:54
    uno dice Espero que esta tendencia
  • 00:05:56
    continúe pero también que la capacidad
  • 00:05:57
    de tener un rendimiento marginalmente
  • 00:05:59
    mayor por un dinero especialmente mayor
  • 00:06:00
    sea realmente será extraña claro eso va
  • 00:06:03
    a ser raro que esto siempre esté
  • 00:06:04
    constantemente va a ser difícil que
  • 00:06:06
    estemos ahí constantemente llegará un
  • 00:06:08
    momento que el límite de las ganancias
  • 00:06:11
    serán más marginales pero es verdad que
  • 00:06:13
    aunque hay mucha gente que también le
  • 00:06:15
    preocupa de buah Es que esto cuesta 1000
  • 00:06:17
    de 1000 a 5,000 y todo esto hay que
  • 00:06:19
    tener en cuenta también una cosa y es
  • 00:06:21
    que los precios los costes van a estar
  • 00:06:23
    en bajada constantemente aquí no sale no
  • 00:06:26
    sale muy bien los costes pero claro
  • 00:06:28
    imaginaos esto Mira coste por tarea
  • 00:06:31
    3440 3000 Mirad para que os hagáis una
  • 00:06:35
    idea para ejecutar toda la batería de
  • 00:06:38
    benchmark han tenido que gastar un
  • 00:06:40
    millón de dólares no lo digo yo lo dice
  • 00:06:42
    aquí chubi dice como se ha dicho ya los
  • 00:06:44
    elevados costes de computación de o3 son
  • 00:06:47
    una locura más de 3,000 por un solo
  • 00:06:49
    rompecabezas de ark agi más de 1 millón
  • 00:06:52
    de dólares para ejecutar todo el
  • 00:06:54
    benchmark a ver obviamente esto es ahora
  • 00:06:57
    pero estos costes pues Irán bajando o
  • 00:06:59
    sea esto Ahora lo vemos muy caro
  • 00:07:02
    imposible y tal Y luego irá bajando irá
  • 00:07:04
    bajando y tal también Es verdad que
  • 00:07:06
    ahora mismo lo que se está haciendo es
  • 00:07:07
    llegar o intentar llevarlo al límite y
  • 00:07:10
    ahora el problema es que tenemos el
  • 00:07:11
    embudo es la computación el el O sea no
  • 00:07:14
    tenemos computación suficiente para
  • 00:07:17
    ejecutar todo lo que necesitamos
  • 00:07:19
    ejecutar y este es el problema que vamos
  • 00:07:21
    a tener que realmente no vamos a tener
  • 00:07:23
    eh
  • 00:07:24
    suficientes recursos para ejecutar todo
  • 00:07:27
    esto así que vamos a ver cómo va esto
  • 00:07:29
    para para que esto provoque una crisis
  • 00:07:30
    de desempleo en deps no tiene que
  • 00:07:32
    necesariamente reemplazar el dep solo
  • 00:07:34
    hace falta que incremente la
  • 00:07:35
    productividad del dep de esa manera con
  • 00:07:36
    dos deps con llm haces que antes hacías
  • 00:07:38
    con ocho sin llm lo que el empresario le
  • 00:07:40
    da oportunidad de despedir a seis deps
  • 00:07:42
    del Team y ahorrarse los salarios
  • 00:07:44
    siempre y cuando el precio del lm sea
  • 00:07:45
    más barato a ver Android te voy a contar
  • 00:07:48
    una cosa porque eso es una cosa que
  • 00:07:49
    mucha gente dice y yo lo veo lo veo de
  • 00:07:52
    otra forma mucha gente dice claro es que
  • 00:07:54
    si mejoras la productividad Pues claro
  • 00:07:56
    Eh Vas a echar gente porque no sé s
  • 00:07:58
    cuánto y tiene razón que puede ser un
  • 00:08:00
    punto pero también Es verdad que la
  • 00:08:02
    mejora de productividad al menos en el
  • 00:08:04
    mundo de la tecnología y la programación
  • 00:08:05
    especialmente ha sido constante quiero
  • 00:08:08
    decir la mejora de la productividad ya
  • 00:08:09
    la hemos visto no es lo mismo como hemos
  • 00:08:11
    programado hace 50 años como programamos
  • 00:08:14
    con cassettes con disquetes a papel o
  • 00:08:17
    sea 1 millones de historias la
  • 00:08:19
    productividad si la comparas con
  • 00:08:20
    Entonces se ha disparado desde
  • 00:08:22
    bibliotecas frameworks de hecho y voy a
  • 00:08:25
    decir una cosa muy polémica pero yo
  • 00:08:27
    Considero que la mejora de actividad que
  • 00:08:29
    hemos tenido de aquí a 50 años es mucho
  • 00:08:32
    mayor que la la que nos pueden dar los
  • 00:08:35
    llm de aquí a dos o TR años o 5 años en
  • 00:08:38
    mi opinión de cómo programamos hace 50
  • 00:08:41
    años o 20 años vale a cómo vamos a
  • 00:08:43
    programar dentro de 5 años creo que la
  • 00:08:45
    productividad ha sido mucho más
  • 00:08:47
    bestialmente mejorada y sin embargo ha
  • 00:08:50
    ido creciendo la demanda porque los
  • 00:08:52
    retos a los que nos vamos a enfrentar se
  • 00:08:54
    van a complicar van a ser más difíciles
  • 00:08:56
    vamos a hacer cosas más más complicadas
  • 00:08:58
    más difíciles en el sentido sentido de
  • 00:08:59
    que a lo mejor los problemas a los que
  • 00:09:01
    nos vamos a enfrentar mañana no son los
  • 00:09:02
    problemas que nos vamos a enfrentar hoy
  • 00:09:04
    o que sabemos hoy que existen igual que
  • 00:09:06
    hace 50 años entonces yo entiendo que lo
  • 00:09:08
    veamos así porque tien razón que va a
  • 00:09:10
    mejorar la productividad Pero por otro
  • 00:09:12
    lado también Creo que se nos olvida que
  • 00:09:14
    la mejora de productividad ha ocurrido
  • 00:09:16
    constantemente y pese a ello no ha
  • 00:09:19
    dejado de ocurrir que ha crecido porque
  • 00:09:23
    al final no va a desaparecer de repente
  • 00:09:26
    el tema de las la tecnología y toda la
  • 00:09:29
    digitalización que necesitamos por más
  • 00:09:31
    que quizás programemos menos pero por
  • 00:09:34
    más que programemos menos todavía la
  • 00:09:36
    programación como tal o la ingeniería de
  • 00:09:38
    software aunque sea en inglés que
  • 00:09:40
    pongamos que dentro de 20 años será con
  • 00:09:42
    solo proms va a seguir ocurriendo es mi
  • 00:09:44
    opinión eh creo que se nos olvida que
  • 00:09:47
    realmente va a evolucionar cómo nos
  • 00:09:48
    vamos a enfrentar a nuevos problemas que
  • 00:09:51
    yo sé que mucha gente lo ve como vamos a
  • 00:09:52
    tener los mismos problemas que hoy pero
  • 00:09:54
    el tema es que si hacer una landing es
  • 00:09:56
    un promt Entonces no haremos landings
  • 00:09:58
    haremos otras cosas todavía más
  • 00:09:59
    difíciles porque esto ha existido ya
  • 00:10:02
    desde hace 20 años el hecho de que a mí
  • 00:10:04
    una agi o un un modelo me haga una
  • 00:10:07
    landing o me resuelva cosas que puedo
  • 00:10:09
    encontrar en Gap para mí no es un
  • 00:10:10
    problema midu no me quiero quedar sin
  • 00:10:12
    chamba no te vas a quedar sin chamba Ya
  • 00:10:14
    veréis eh el tema de los costos me
  • 00:10:15
    recuerda cuando salieron los primeros
  • 00:10:16
    móviles con pantalla táctil que eran
  • 00:10:18
    caros pero con el tiempo se consiguió
  • 00:10:19
    mejorar no solo en Materiales sino en
  • 00:10:20
    capacidad totalmente y no pasaron ni 20
  • 00:10:23
    años de eso totalmente Es que yo creo
  • 00:10:24
    que estamos justamente en el punto dulce
  • 00:10:27
    de la Inteligencia artificial en eso de
  • 00:10:29
    de que vamos a ver un montón de mejoras
  • 00:10:30
    de coste de de computación de modelo y
  • 00:10:34
    todo esto y igual que los móviles yo
  • 00:10:36
    creo que también llegaremos un punto en
  • 00:10:37
    el que se estancará de alguna forma yo
  • 00:10:39
    creo que habrá cada vez las ganancias
  • 00:10:43
    Irán bajando y tal de hecho y os voy a
  • 00:10:45
    contar tema polémico también vale Para
  • 00:10:47
    que veamos esto tiene muy buena pinta yo
  • 00:10:49
    no soy para nada o sea creo que tiene
  • 00:10:51
    muy muy buena Pinta y creo que el coste
  • 00:10:53
    bajará esto es una cosa que ya sabemos
  • 00:10:55
    el coste poco a poco pues irá bajando
  • 00:10:57
    obviamente aquí hay gente que lo sera
  • 00:10:59
    como agi como agi como una inteligencia
  • 00:11:01
    ya general y todo esto yo esto todavía
  • 00:11:06
    no lo veo como razonamiento de hecho a
  • 00:11:09
    ver voy a decir una cosa un poco
  • 00:11:10
    polémica Pero esto me lo dijo alguien
  • 00:11:12
    que de buena tinta eh que dice que
  • 00:11:16
    muchos de estos o1 o3 y todo esto que en
  • 00:11:20
    realidad lo que hacen de alguna forma es
  • 00:11:22
    que son muy inteligentes y tardan mucho
  • 00:11:25
    tiempo porque al final se le da como más
  • 00:11:27
    tiempo para pensar o para masticar lo
  • 00:11:30
    que están haciendo que en realidad Está
  • 00:11:31
    utilizando la misma técnica que tiene
  • 00:11:33
    gpt 4o pero lo que hace es como que el
  • 00:11:36
    prom que se le pasa es como que se nutra
  • 00:11:39
    de la propia respuesta que está haciendo
  • 00:11:41
    para que pueda reflexionar sobre lo que
  • 00:11:43
    él mismo ha creado Entonces se le vuela
  • 00:11:46
    a pasar para ver si además encaja en el
  • 00:11:49
    resultado esperado que por eso Funciona
  • 00:11:52
    muy bien cuando tienes como un test
  • 00:11:54
    porque al final si tú tienes un
  • 00:11:56
    benchmark y lo que esperas Es un un
  • 00:11:59
    resultado en concreto cuando te ha te da
  • 00:12:01
    el resultado y lo puedes ejecutar porque
  • 00:12:03
    ahora muchos tienen code runners donde
  • 00:12:06
    Ejecutan eso y al ejecutarlo no te da se
  • 00:12:08
    puede retroalimentar de lo que ha hecho
  • 00:12:10
    para intentarlo con otro approach
  • 00:12:12
    diferente y por eso muchas veces como
  • 00:12:14
    que tarda mucho no Entonces no es que
  • 00:12:16
    esté razonando como que es pensante a lo
  • 00:12:19
    mejor estamos de alguna forma simulando
  • 00:12:21
    el razonamiento humano Obviamente que no
  • 00:12:23
    digo que no vaya a existir pero que esto
  • 00:12:25
    no es exactamente lo que sería el
  • 00:12:26
    razonamiento como tal no el test de zumi
  • 00:12:28
    es primer la respuesta para sacarle el
  • 00:12:30
    ácido Pulp tuya solo le pregunté la hora
  • 00:12:32
    bueno Eh Al final eso el o1 funciona
  • 00:12:35
    bajo three of thrs es que al final Yo
  • 00:12:38
    creo que es un poco esto luego también
  • 00:12:40
    una cosa que es bastante interesante que
  • 00:12:41
    hay gente que ha dicho ostia ojo cuidado
  • 00:12:43
    con esto zpid dice Cuanto más miras el
  • 00:12:45
    ot de Open e Ey menos impresionante
  • 00:12:47
    parece primero el coste de miles de
  • 00:12:49
    dólares por tarea Luego descubrimos que
  • 00:12:51
    la partitura bueno partitura le llama
  • 00:12:53
    aquí pero dice más que partitura Es que
  • 00:12:56
    la puntuación es de una versión
  • 00:12:58
    optimizada de o3
  • 00:13:01
    específicamente preparada para el
  • 00:13:03
    desafío del Arco por último ni siquiera
  • 00:13:07
    es el desafío del Arco que todos
  • 00:13:08
    conocemos sino que es un Jason es que el
  • 00:13:11
    desafío lo han transformado en un Jason
  • 00:13:13
    y se lo han pasado como un Jason claro
  • 00:13:15
    le han pasado esto claro esto es mucho
  • 00:13:17
    más fácil de que lo pueda solucionar
  • 00:13:20
    claro aquí hay gente dice creo que lo
  • 00:13:21
    están malinterpretando porque lo
  • 00:13:23
    importante no sé qué no sé cuánto y dice
  • 00:13:25
    no es que a ver eh No es científico lo
  • 00:13:27
    que están haciendo porque el tema es que
  • 00:13:29
    el Cómo se presenta el problema que es
  • 00:13:32
    un problema visual al final dice claro
  • 00:13:35
    ojo porque entonces no es no O sea no
  • 00:13:39
    tiene mucho mucho sentido porque se
  • 00:13:41
    supone que es visual eso lo tiene que
  • 00:13:42
    transformar lo tiene que tratar al final
  • 00:13:44
    se lo está dando masticado Y encima aquí
  • 00:13:47
    lo pone tunet tunet que esté tuneado
  • 00:13:50
    para un problema en concreto eh No creo
  • 00:13:53
    que sea realmente la forma correcta de
  • 00:13:56
    sacar datos que no significa que no sea
  • 00:13:59
    an Igualmente vale Pero aún así claro le
  • 00:14:01
    baja un poquito el hype ha habido
  • 00:14:03
    bastante polémica sobre esto como que ha
  • 00:14:05
    sido resultados bastantes cocinados y
  • 00:14:08
    que incluso hay algunos que no ha podido
  • 00:14:10
    llegar a solucionar como tres en su
  • 00:14:12
    coste máximo no ha podido solucionar
  • 00:14:14
    este de aquí no a ver hay algunos que ya
  • 00:14:15
    sabemos que todavía nos ha podido
  • 00:14:17
    solucionar ya sabemos que cuesta mucho
  • 00:14:19
    hay gente que comenta que como Google se
  • 00:14:21
    ha puesto las pilas con gemini que ha
  • 00:14:23
    mejorado muchísimo con gemini 2.0 con
  • 00:14:27
    todo el tema de la multim modalidad el
  • 00:14:29
    de vídeo y tal que han necesitado un
  • 00:14:32
    efecto Wow y se han visto forzados de
  • 00:14:36
    alguna forma a maquillar bastante los
  • 00:14:39
    resultados para poder estar otra vez en
  • 00:14:41
    la delantera no lo sé yo creo que hay
  • 00:14:43
    que darle tiempo para ver realmente cómo
  • 00:14:45
    Este modelo funciona por el público en
  • 00:14:48
    general por los científicos Más allá de
  • 00:14:50
    lo que nos pueda demostrar una persona
  • 00:14:51
    por ahí y y ya está pero es verdad que
  • 00:14:55
    así a corto plazo que veamos nosotros no
  • 00:14:57
    lo vamos a poder utilizar con el coste
  • 00:14:59
    que tiene sí que parece algo una
  • 00:15:01
    evolución bastante interesante y veremos
  • 00:15:03
    Cómo continúa la cosa mid haría vídeos
  • 00:15:05
    profundos de ya tipo implementación de
  • 00:15:07
    nns cnns etcétera la verdad Kate haría
  • 00:15:11
    sí que lo haría tendría que aprender
  • 00:15:13
    tendría que aprender mucho de hecho es
  • 00:15:14
    una cosa de 2025 que sí que ha empezado
  • 00:15:16
    a aprender algunas cositas y me gustaría
  • 00:15:18
    porque le quiero quiero hacer el curso
  • 00:15:20
    de python y después de hacer el curso de
  • 00:15:22
    python me gustaría hacer alguna cosa de
  • 00:15:23
    Inteligencia artificial aquí en directo
  • 00:15:25
    Así que no lo descarto y puede ser que
  • 00:15:28
    ocurra algú momento
Tags
  • Open AI
  • Modelo O3
  • Benchmark
  • Intelixencia Artificial
  • Enxeñería de Software
  • Costos de Computación
  • Competencia
  • Gemini de Google
  • Fase Beta
  • Productividade