redaccion@diariodigitalis.com

OpenAI integra procesamiento de vídeo en tiempo real en el Modo de voz avanzado de ChatGPT

OpenAI ha anunciado una nueva función para el Modo de voz avanzado de ChatGPT, que incorpora procesamiento de vídeo en tiempo real. Esta mejora permitirá al chatbot analizar y responder solicitudes según el contexto visual captado a través de la cámara del dispositivo del usuario, ofreciendo respuestas más precisas.

Este anuncio forma parte de una serie de novedades presentadas por OpenAI en los últimos días, que incluyen el lanzamiento del modelo de IA o1, una versión mejorada de ChatGPT Pro y la disponibilidad general de la herramienta de vídeo Sora.

El Modo de voz avanzado, inicialmente introducido junto al modelo GPT-4o, permite personalizar las interacciones al elegir entre distintas voces. Su implementación, programada para julio, fue retrasada para garantizar su fiabilidad. Desde septiembre, está disponible para los suscriptores de las versiones Plus y Teams, aunque usuarios de la Unión Europea y otros países del EEE (Suiza, Islandia, Liechtenstein y Noruega) quedaron excluidos.

La compañía ahora ha anunciado la incorporación de la entrada de vídeo en el Modo de voz avanzado, lo que permitirá al modelo multimodal procesar en tiempo real las imágenes, así como acceder a las aplicaciones que se estén utilizando en el dispositivo mediante la opción ‘Share Screen’ o ‘Compartir pantalla’.

Como resultado de esta integración, «las conversaciones con Modo de voz avanzado tendrán un ritmo mucho más natural» y podrá profundizar en aspectos como el ritmo o el tono de la voz en más de 50 idiomas, según han explicado los responsables de la firma en un vídeo.

Gracias a esta funcionalidad, que se puede utilizar bien con la cámara delantera o bien con la trasera, ChatGPT podrá indicar a una persona cuáles son los pasos que debe dar para preparar un café con los elementos que identifique y que estén situados frente al objetivo.

Asimismo, con ‘Compartir Pantalla’, el usuario podrá solicitar al ‘chatbot’ ayuda para ejecutar acciones. Por ejemplo, para responder a un mensaje desde la aplicación de Mensajes del ‘smartphone’, de modo que le dará las indicaciones pertinentes para contestar con el tono elegido.

OpenAI ha confirmado que llevará esta función a Europa «tan pronto como pueda» y que ofrecerá acceso anticipado a suscriptores de los planes Enterprise y Edu antes de 2025. Asimismo, ha anunciado que ha personalizado el Modo de voz avanzado de ChatGPT con un modo Papá Noel con motivo de las fiestas de Navidad.

El modo Santa Claus se puede activar durante todo el mes de diciembre pulsando sobre el icono de un copo de nieve, que aparece junto a la barra de mensajes, o bien a través de la Configuración de voz. Esta característica funciona en aplicaciones móviles, iOS, Android y la versión web de ChatGPT.

Id bootcamps Banner

Artículos Relacionados

Suscríbete a nuestra newsletter


(Obligatorio)

También te puede gustar

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Suscríbete a nuestra newsletter