El teclado sigue siendo nuestro principal medio para interactuar con ChatGPT y otros modelos como Gemini, Claude o Llama. Sin embargo, la comunicación verbal con estas tecnologías está en auge, y cada vez nos parece más natural hablar con las máquinas.
Llama 4. Según el Financial Times, fuentes cercanas al desarrollo del nuevo modelo de IA de Meta, conocido como Llama 4 (aunque el nombre no está confirmado), han señalado que este se enfocará en mejorar la interacción por voz. El modelo, previsto para lanzarse pronto, incluirá funcionalidades para agentes de IA, destacando especialmente la integración de la voz.
Voz nativa. Chris Cox, ejecutivo de Meta, afirmó que Llama 4 será un «omnimodelo» donde «la voz será nativa». Tradicionalmente, el proceso implicaba convertir la voz a texto, procesar ese texto en el LLM, y luego revertir el texto a voz. Esta nueva integración simplificará ese proceso.
Un avance significativo, según Meta. La integración nativa de la voz es crucial no solo para interactuar con chatbots, sino también con dispositivos. Meta ve un gran potencial en este desarrollo, especialmente para productos como sus gafas Ra-Ban, que hacen que hablar con Internet sea tan sencillo como conversar.
Competencia feroz. Meta no es la única compañía interesada en esto. Google lleva tiempo ofreciendo funciones de voz en sus productos, y OpenAI ha impresionado con GPT-4 y su capacidad de adoptar roles educativos. La empresa xAI de Elon Musk también ha innovado con Grok 3, que permite conversaciones con diversos tonos.
Claude se mantiene algo atrás, pero Alexa+ de Amazon también apuesta fuerte por la comunicación conversacional, aprovechando su experiencia en asistentes de voz.
Voces que parecen reales. Aunque los asistentes de voz iniciales ofrecían un sonido plano, los actuales modelos de IA desarrollan voces casi indistinguibles de las humanas. Ejemplos incluyen Sesame, que logra una prosodia humana, y compañías como Eleven Labs que siguen esta tendencia.
La alternativa al teclado. Aunque escribir nos permite reflexionar antes de expresar, hablar directamente con modelos de IA es más efectivo en situaciones que requieren respuestas inmediatas.
Preparémonos para el futuro de la comunicación. Todas estas innovaciones apuntan a un objetivo común: facilitar la comunicación con IA. Aunque actualmente estas interacciones se desarrollan principalmente en la nube, pronto podrían trasladarse a dispositivos como móviles, gafas inteligentes, auriculares o relojes inteligentes, evocando escenas reminiscentes de películas como ‘Her’.
Imagen | Warner Bros Pictures
Deja una respuesta