Desde el inicio de este año, las grandes compañías tecnológicas han tenido un objetivo en mente: facilitar que interactuemos con la inteligencia artificial (IA) a través del habla. Firmas como OpenAI, Microsoft, Google y Meta han estado incorporando capacidades de voz a sus asistentes. Sin embargo, esto es solo el comienzo de un periodo de cambios intensos, a medida que la industria avanza rápidamente y transformamos nuestra forma de interactuar con estas herramientas.
Conoce a los agentes de voz. La empresa de IA liderada por Sam Altman ha estado impulsando agentes de texto con innovaciones como Operator y Computer-Using Agents. No obstante, OpenAI ya está preparada para dar un paso adelante en la competencia del desarrollo de la IA, enfocándose en una nueva generación de agentes de voz más potentes.
Presentación de modelos innovadores. OpenAI ha revelado el lanzamiento de nuevos modelos de audio que son capaces de convertir voz en texto y viceversa. Aunque no se encuentran integrados en ChatGPT, estarán disponibles en la API, brindando a los desarrolladores la oportunidad de crear agentes de voz más precisos y personalizables.
Los modelos renovados de OpenAI, basados en GPT-4o y GPT-4o-mini, prometen superar en rendimiento a sus predecesores como Whisper, al tiempo que continúan ofreciendo sus servicios a través de la API. Un distintivo esencial es su capacidad para modular el tono, adaptándose a escenarios como el de un «agente de atención al cliente empático».
Objetivo: los call centers. OpenAI ha dejado en claro su rumbo con este nuevo desarrollo, afirmando que «por primera vez, los desarrolladores pueden instruir al modelo no solo sobre el contenido, sino también sobre el tono de la comunicación, facilitando experiencias altamente personalizadas desde la atención al cliente hasta la narración creativa».
OpenAI sostiene que esta tecnología abrirá las puertas a “experiencias conversacionales” de mayor riqueza. Desde el debut de ChatGPT impulsado por GPT-3.5 en noviembre de 2022, el progreso ha sido asombroso, y todo indica que estos avanzados modelos podrían tener como destino final los call centers.
Se anticipa que, inicialmente, las interacciones podrían presentar algunas limitaciones, pero estarán por encima de los sistemas de voz actuales. Estos nuevos agentes se alejarán de los tradicionales asistentes automatizados, ofreciendo una experiencia mucho más natural. Con el tiempo, la diferencia entre conversar con una persona y una IA podría volverse casi indistinguible.
Imágenes | Charanjeet Dhiman | OpenAI
Deja una respuesta