🚀 Llega ChatGPT 4O, el asistente GRATUITO más poderoso - Resumen Resumido #120

OpenAI anunció su nuevo modelo GPT-4o y promete revolucionarlo todo. ¡Descubre todo lo que necesitas saber aquí!

¿Un resumen resumido en medio de la semana? Así es!! Me volví loco!!

En verdad no, pero lo que anunció OpenAI ayer fue tan increíble que no podía no escribir un Resumen Resumido Edición Especial ™ para traerte todos los detalles de este anuncio.

Estoy realmente impresionado: mostraron una nueva versión de ChatGPT más poderosa, más rápida, capaz de imitar emociones y sobre todo... ¡totalmente gratis para todo el mundo!

Pero para entender todo lo que pasó, mejor vayamos por parte.

Si prefieres, puedes ver el contenido de este newsletter especial en su versión en vídeo acá:

🔥 El anuncio

OpenAI publicó a finales de la semana pasada que este lunes 13 de mayo realizaría un nuevo evento de "Actualización de Primavera" donde mostraría novedades muy interesantes. Sam Altman, el CEO de OpenAI, puso paños fríos unos días antes diciendo: no es GPT-5 ni el rumoreado Buscador.

Pero nadie se esperaba lo que anunciaron.

En el evento realizado hoy, que puedes ver en el vídeo acá abajo, anunciaron tres cosas:

El nuevo modelo GPT-4o (se lee ¡cuatro oh!) una nueva versión de GPT4 con la capacidad de reconocer e interpretar texto, audio y vision (imágenes y vídeo).
Una aplicación para escritorio de ChatGPT, para que puedas usar el asistente durante tu día a día.
Que ChatGPT gratuito ahora usará el modelo GPT-4o y que, además, tendrá acceso a funciones que hasta ahora eran de pago: navegar por internet, GPTs personalizados, conversar acerca de imágenes, acceso a la función memoria, y mucho más.

Esto último es realmente poderoso: todos en (casi) todo el mundo tendrán acceso al modelo más avanzado hasta la fecha de forma gratuita en más de 50 idiomas, y con todos los "súper poderes" que le habían entregado hasta el momento.

Puedes leer más sobre el modelo y ver otros ejemplos en el post del anuncio en su web.

👁️ Un modelo "omnimodal"

Al igual que Google cuando presentó su modelo Gemini indicando que lo habían entrenado de forma "multimodal", OpenAI define al suyo como "omnimodal", lo que es básicamente su forma de hablar de lo mismo: un modelo muy inteligente que está entrenado desde las bases para entender texto, ver imágenes y vídeos, y comprender audio.

Para que te hagas una idea cuando antes, usando la aplicación de celular, hablabas con voz con ChatGPT (en su versión anterior), lo que realmente ocurría era lo siguiente:

GPT funcionaba como un "orquestrador" que iba hilando partes

Tu hablabas, y eso era transcrito a texto, lo que luego pasaba al modelo GPT, que generaba un texto, que luego pasaba a un modelo que lo convertía en un Audio que era lo que tu escuchabas.

En otras palabras: no era realmente "omnimodal" sino que iba intercalando de un modo al otro y así sucesivamente.

Ahora, con el nuevo modelo, cuando tú le hablas, ChatGPT entiende directamente la voz, y luego procesa su respuesta en menos de 200 milisegundos, para entregarla directamente en forma de voz, y lograr esa respuesta casi casi en tiempo real.

Y una de las mayores gracias es la capacidad de mezclar todos esos "modos" en una misma interacción, por ejemplo, en el siguiente vídeo donde interpreta tanto la instrucción de voz como las imágenes que el usuario le va mostrando.

📱 La nueva interfaz que viene a cambiarlo todo

La clave de todo esto, a mi parecer, es la nueva interfaz que crearon para interactuar con el modelo GPT. Si se fijan la mayor cantidad de demos e interacciones que mostraron gira entorno a la nueva versión de la aplicación de celular, a través de la cuál puedes hablar con el asistente en tiempo real, y donde también le puedes aumentar el contexto mediante la cámara para que “vea” lo que está alrededor.

Literalmente se siente como si fuera un asistente sacado de una película: un asistente con niveles de inteligencia al mismo nivel que un humano, pero con acceso a toda la información del mundo, que te puede ayudar a comprender lo que hay alrededor tuyo y apoyarte en tus quehaceres diarios.

Imagínate el momento en que puedas darle acceso a tu calendario, a tus correos, y a otras piezas de información que te permitan contar con un asistente de IA que te ayude con tu día a día, igual que el asistente que tiene un multimillonario que le gestiona la agenda y sus comidas.

El verdadero poder habilitador de una tecnología como ésta es la democratización: entregar a millones de personas de todo el mundo de forma gratuita el poder de hacer más y mejor gracias a un poderoso asistente que está literalmente en tu bolsillo.

Y lo que más me sorprende es que hayan decidido lanzarlo gratis. Podían cobrar, e incluso el mismo Sam Altman lo menciona en el post que subió en su blog (y que puedes ver en la descripción):

“Somos un negocio, y encontraremos muchas cosas por las que cobrar, lo que nos ayudará a ofrecer un servicio de IA gratuito y excepcional a (esperamos) miles de millones de personas.
Sam Altman

🤔 ¿Desde cuándo puedo usarlo?

Si eres usuario de pago de ChatGPT Plus, ya deberías tener disponible el modelo GPT-4o en tu ChatGPT, y si eres usuario gratuito… ¡también! (solo que el de pago puede hablar por más tiempo con el nuevo modelo, gracias a un mayor límite de mensajes diarios).

Eso sí: solo están disponibles las capacidades de texto e imágenes, la versión con el nuevo modo de voz basado en GPT4o, estará disponible en las próximas semanas como una prueba alfa para usuarios de ChatGPT Plus.

Y si eres desarrollador, ya puedes acceder al nuevo modelo via API para texto y visión, lo que además te da acceso a un modelo que es dos veces más rápido y a mitad de precio.

Lo que es yo: solo quiero que me entreguen pronto el nuevo modo de voces, para poder llevar al límite de lo posible a este nuevo asistente personal.