OpenAI anunció el lunes un nuevo modelo emblemático de IA generativa al que llaman GPT-4o; la "o" significa "omni", en referencia a la capacidad del modelo para manejar texto, voz y video. GPT-4o se implementará "iterativamente" en los productos de desarrollo y consumidores de la compañía durante las próximas semanas.
La CTO de OpenAI, Mira Murati, dijo que GPT-4o proporciona inteligencia de "nivel GPT-4", pero mejora las capacidades de GPT-4 en múltiples modalidades y medios.
"GPT-4o comprende voz, texto y visión", dijo Murati durante una presentación transmitida en las oficinas de OpenAI en San Francisco el lunes. "Y esto es increíblemente importante, porque estamos mirando al futuro de la interacción entre nosotros y las máquinas".
GPT-4 Turbo , el modelo anterior "líder" más avanzado "de OpenAI, fue entrenado en una combinación de imágenes y texto y podía analizar imágenes y texto para realizar tareas como extraer texto de imágenes o incluso describir el contenido de esas imágenes. Pero GPT-4o añade voz a la mezcla.
¿Qué permite esto? Una variedad de cosas.
GPT-4o mejora enormemente la experiencia en el chatbot impulsado por IA de OpenAI, ChatGPT . La plataforma ha ofrecido durante mucho tiempo un modo de voz que transcribe las respuestas del chatbot utilizando un modelo de texto a voz, pero GPT-4o lo potencia, permitiendo a los usuarios interactuar con ChatGPT más como un asistente.
Por ejemplo, los usuarios pueden hacer una pregunta al ChatGPT con tecnología GPT-4o e interrumpir ChatGPT mientras responde. El modelo ofrece capacidad de respuesta "en tiempo real", dice OpenAI, e incluso puede captar matices en la voz de un usuario, generando en respuesta voces en "una variedad de estilos emotivos diferentes" (incluido el canto).
OpenAI recientemente presentó su última novedad de inteligencia artificial, GPT-4o, e introdujo una versión de escritorio de ChatGPT, brindando un conjunto de funciones mejoradas al alcance de todos los usuarios de forma gratuita. GPT-4o («o» de «omni») es un paso adelante hacia una interacción mucho más natural entre el ser humano y el ordenador: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de texto, audio e imagen como salida.
OpenAI lanzó el lunes un nuevo modelo de IA y una versión de escritorio de ChatGPT, junto con una nueva interfaz de usuario. La actualización pone GPT-4 a disposición de todo el mundo, incluidos los usuarios gratuitos de OpenAI, según explicó la directora técnica Mira Murati en un evento retransmitido en directo. Añadió que el nuevo modelo, GPT-4o, es «mucho más rápido», con capacidades mejoradas en texto, vídeo y audio.
Los miembros del equipo de OpenAI también demostraron las capacidades de audio del nuevo modelo, pidiendo ayuda para calmarse antes de un discurso público. Mark Chen, investigador de OpenAI, afirmó que el modelo es capaz de «percibir tus emociones», y añadió que también puede hacer frente a las interrupciones de los usuarios.
Durante la retransmisión en directo, OpenAI demostró las capacidades de conversación de audio en tiempo real de GPT-4o, mostrando su capacidad para entablar un diálogo natural y receptivo sin el típico retraso de 2-3 segundos experimentado con modelos anteriores. El asistente de IA parecía captar fácilmente las emociones, adaptaba su tono y estilo a las peticiones del usuario e incluso incorporaba efectos de sonido, risas y canciones a sus respuestas.
Cuando esté disponible, nos encontraremos con un asistente con el que podremos comunicarnos de manera completamente natural, como lo haríamos con otro ser humano. Podremos interrumpirlo mientras responde, características que hasta ahora no se habían visto en ninguna otra IA. El modelo no solo ofrece respuestas instantáneas, sino que también proporciona respuestas en una variedad de tonos de voz, e incluso puede reír, cantar, expresar diferentes estados de ánimo y resolver problemas matemáticos. Una de las características destacadas que llegará a ChatGPT gracias al nuevo modelo es la traducción instantánea. OpenAI busca que simplemente le pidamos lo que queramos al chatbot para que comience a hacer su trabajo, todo en lenguaje natural, sin necesidad de pensar en comandos específicos.
Además, se destacó la comprensión visual mejorada de GPT-4o. Al cargar capturas de pantalla, documentos que contienen texto e imágenes o gráficos, los usuarios pueden mantener conversaciones sobre el contenido visual y recibir análisis de datos de GPT-4o. En la demostración, el modelo demostró su capacidad para analizar selfies, detectar emociones y participar en bromas animadas sobre las imágenes.
Las características disponibles para los usuarios gratuitos de ChatGPT incluirán inteligencia de nivel GPT-4, respuestas tanto del modelo como de la web, análisis de datos y creación de gráficos, conversaciones sobre fotos tomadas, asistencia para resumir, escribir o analizar archivos cargados, y la posibilidad de descubrir y utilizar GPTs y la tienda GPT para construir una experiencia más útil con la función de Memoria.
Entre las funciones disponibles para los usuarios gratuitos de ChatGPT a partir de ahora se incluyen las siguientes, según OpenAI:
- Experiencia de inteligencia de nivel GPT-4
- Obtener respuestas tanto del modelo como de la web
- Analizar datos y crear gráficos
- Conversa sobre las fotos que haces
- Sube archivos para que te ayuden a resumir, escribir o analizar
- Descubrir y utilizar GPTs y el GPT Store
- Construye una experiencia más útil con la Memoria
No hay comentarios:
Publicar un comentario