OpenAI anunció el lunes un nuevo modelo emblemático de IA generativa al que llaman GPT-4o; la "o" significa "omni", en referencia a la capacidad del modelo para manejar texto, voz y video. GPT-4o se implementará "iterativamente" en los productos de desarrollo y consumidores de la compañía durante las próximas semanas.
La CTO de OpenAI, Mira Murati, dijo que GPT-4o proporciona inteligencia de "nivel GPT-4", pero mejora las capacidades de GPT-4 en múltiples modalidades y medios.
"GPT-4o comprende voz, texto y visión", dijo Murati durante una presentación transmitida en las oficinas de OpenAI en San Francisco el lunes. "Y esto es increíblemente importante, porque estamos mirando al futuro de la interacción entre nosotros y las máquinas".
GPT-4 Turbo , el modelo anterior "líder" más avanzado "de OpenAI, fue entrenado en una combinación de imágenes y texto y podía analizar imágenes y texto para realizar tareas como extraer texto de imágenes o incluso describir el contenido de esas imágenes. Pero GPT-4o añade voz a la mezcla.
¿Qué permite esto? Una variedad de cosas.
GPT-4o mejora enormemente la experiencia en el chatbot impulsado por IA de OpenAI, ChatGPT . La plataforma ha ofrecido durante mucho tiempo un modo de voz que transcribe las respuestas del chatbot utilizando un modelo de texto a voz, pero GPT-4o lo potencia, permitiendo a los usuarios interactuar con ChatGPT más como un asistente.
Por ejemplo, los usuarios pueden hacer una pregunta al ChatGPT con tecnología GPT-4o e interrumpir ChatGPT mientras responde. El modelo ofrece capacidad de respuesta "en tiempo real", dice OpenAI, e incluso puede captar matices en la voz de un usuario, generando en respuesta voces en "una variedad de estilos emotivos diferentes" (incluido el canto).