Hace más de diez años, la película ‘Her’ nos transportaba a un futuro donde los asistentes de inteligencia artificial (IA) no solo podían comunicarse por voz, sino también «observar» el entorno mediante una cámara. En ese momento, Siri apenas había comenzado a conocerse, y lo representado en la película parecía un futuro lejano. Sin embargo, OpenAI está acercándonos a esa visión.
ChatGPT finalmente tiene la capacidad de ver lo que nos rodea. Ahora es posible permitirle el acceso a nuestra cámara al utilizar el modo de voz avanzado. Con esto, el popular chatbot puede procesar imágenes en tiempo real gracias al modelo multimodal GPT-4o. También se podrá compartir la pantalla de nuestro dispositivo para que capture datos de las aplicaciones en uso.
ChatGPT avanza y ahora procesa vídeo en tiempo real
Activar esta nueva función en nuestro dispositivo es muy sencillo. Solo necesitamos abrir la aplicación de ChatGPT y presionar el botón en la esquina superior derecha para iniciar el modo de voz avanzado. El siguiente paso es seleccionar el botón de la cámara. En la interfaz, podremos optar por usar la cámara delantera o trasera, especialmente útil en teléfonos.
Gracias a esta mejora, el chatbot de IA de OpenAI se vuelve más funcional. Por ejemplo, puede ayudar a realizar tareas específicas. Un miembro del equipo presentó una demostración reciente en la que solicitaba a ChatGPT instrucciones para preparar café con un filtro. El modelo reconoció en tiempo real los objetos sobre la mesa y guió al usuario a lo largo del proceso, mostrando una latencia prácticamente nula.
Durante el anuncio de esta funcionalidad en mayo, la empresa presentó varios escenarios de uso. Estos incluían un padre ayudando a su hijo con problemas de matemáticas, personas jugando a piedra, papel o tijera, e incluso una interacción con un perro. Un uso especialmente interesante es dentro de las opciones de accesibilidad, ya que el modelo puede describir el entorno de manera sencilla.
Para compartir nuestra pantalla con el chatbot, solo debemos acceder al menú de tres puntos y seleccionar Compartir pantalla. Aunque esperamos que las capacidades visuales del chatbot cumplan con nuestras expectativas, es importante recordar que, como todo modelo de IA, puede fallar. Sin duda, OpenAI está demostrando su liderazgo en la evolución de la inteligencia artificial.
La compañía ha anunciado que el nuevo modo de vídeo llegará en los próximos días “en la mayoría de los países” para los usuarios de ChatGPT Plus (20 dólares al mes) y ChatGPT Pro (200 dólares al mes). Para quienes leen desde España, OpenAI ha mencionado que espera ofrecer “pronto” esta novedad en la Unión Europea, aunque no ha proporcionado una fecha exacta debido a cuestiones regulatorias.
Esta semana, Sam Altman comentó en un mensaje en X que algunos de sus productos podrían tardar más en llegar a Europa. También subrayó que podría no ofrecer todos los productos en el continente, afirmando: “Queremos ofrecer nuestros productos en Europa y creemos que una Europa fuerte es importante para el mundo. También tenemos que cumplir con la regulación”.
Imágenes | OpenAI | Captura de pantalla
Deja una respuesta