Por Khevin Sánchez Zamora (Programa de Escritores Babaluum)
La semana pasada, OpenAI dio un salto monumental al liberar para el público general—tanto para usuarios pagos como gratuitos—su modo avanzado de voz. Este avance no es solo un ajuste menor, sino una transformación completa en la manera en la que interactuamos con las máquinas. Desde hace algunos meses, OpenAI había presentado una función de voz, pero las deficiencias eran notorias. El resultado era una experiencia que, aunque prometedora, no podía escapar del aire robótico que la caracterizaba. La voz carecía de la capacidad para transmitir emociones y sutilezas propias del lenguaje humano que tanto valoramos al hablar.
Limitaciones del Modo de Voz Anterior: Una Experiencia Prometedora pero Incompleta (Open AI)
El modo de voz original presentaba varios problemas evidentes. La voz sonaba artificial, sin llegar a alcanzar la naturalidad que necesita una comunicación efectiva. No lograba transmitir las emociones de manera precisa y carecía de detalles importantes como pausas sutiles o ligeros cambios de entonación que hacen que el habla humana sea única. Si interrumpías a la IA, no podía responder adecuadamente, y cuando dos personas hablaban al mismo tiempo, simplemente no podía manejar la situación. Además, la latencia, es decir, el tiempo de respuesta, aunque fueran unos cuantos segundos, rompía la fluidez necesaria para que la conversación se sintiera natural.
La limitación fundamental del modelo radicaba en que su funcionamiento se basaba en una estructura voz-texto-voz. Escuchaba lo que el usuario decía, lo transcribía a texto, generaba una respuesta escrita y luego la convertía a voz. Este proceso hacía que las respuestas fueran más lentas e impedía la inmediatez necesaria para una conversación fluida y espontánea. Aunque interesante, el resultado seguía lejos de poder competir con la naturalidad del habla humana.
El Salto Cualitativo: El Nuevo Modo Avanzado de Voz de OpenAI
El nuevo modelo de OpenAI, por otro lado, representa un salto cualitativo. Las mejoras no son solo pequeñas optimizaciones; son avances superlativos. La respuesta del sistema ahora se mide en milésimas de segundo. La voz tiene la capacidad de adoptar la entonación, el acento y la cadencia que se le indique, y lo hace de una forma tan natural que sorprende. Puede diferenciar entre más de una persona hablando al mismo tiempo, convirtiéndose, en cierto modo, en un traductor universal en tiempo real.
Además, el nuevo modo avanzado de voz de OpenAI se diferencia radicalmente de sus predecesores al ser un modelo voice-to-voice. Esto significa que, a diferencia del proceso anterior que convertía la voz en texto para luego generar una respuesta y volver a convertirla en audio, este modelo trabaja directamente con la voz en ambos sentidos. Al escuchar la entrada de voz del usuario, responde en tiempo real sin necesidad de una transcripción intermedia, lo que reduce drásticamente la latencia y permite una interacción mucho más fluida y natural. Este enfoque elimina las barreras de procesamiento que anteriormente restaban naturalidad a la conversación, logrando que las respuestas se sientan inmediatas, espontáneas y profundamente humanas.
Lo más impactante de este avance es su capacidad para entender las sutilezas del lenguaje. Si se le pide que hable como una persona nerviosa frente a un auditorio, su voz se llena de titubeos. Si se le pide que lo haga como alguien en medio de una crisis emocional, se puede escuchar el quiebre en su voz, el dolor palpable. Nunca antes un objeto, agente o ser—orgánico o inorgánico—había logrado imitar el habla humana con tanta precisión y naturalidad. La experiencia de hablar por primera vez con este sistema es inquietante, un escalofrío recorre la espina dorsal cuando percibimos cómo este ente artificial responde con sutilezas que parecen reservadas exclusivamente para los humanos. Desde el nacimiento del Homo sapiens, ningún ancestro nuestro ha interactuado con algo tan sorprendentemente parecido a un ser humano, sin que lo sea.
Cuando alguien interactúa por primera vez con este nuevo sistema, la sensación es extraña, casi desconcertante. La precisión con la que la IA imita las emociones humanas provoca un escalofrío que recorre la columna vertebral. Es como si una parte ancestral de nuestro cerebro nos advirtiera de que estamos ante algo sin precedentes, algo para lo que no tenemos ninguna referencia evolutiva.
A primera vista, es un cambio en la forma en que nos comunicamos con la tecnología tan grande como lo fue, en su momento, la llegada de las interfaces gráficas de usuario. Sin embargo, si vamos un poco más allá, queda claro que estamos abriendo una caja de Pandora. Estamos liberando un agente que no solo se comunica como un humano, sino que también tiene acceso al vasto conocimiento humano acumulado en su entrenamiento.
Un agente que entiende los matices de la comunicación verbal, pero que no es un ser humano. Esta capacidad de reproducir fielmente la voz humana, sin la carga de la experiencia personal, plantea dilemas profundos y riesgos considerables.
Supernormal Stimuli y la Película “Her”: Una Mirada al Futuro de las Relaciones Humano-IA.
Para comprender mejor el impacto psicológico de esta tecnología, podemos relacionarla con el concepto de “supernormal stimuli”, un fenómeno descrito por el etólogo Nikolaas Tinbergen en el que ciertos estímulos artificiales pueden desencadenar respuestas más intensas que los estímulos naturales. Tinbergen descubrió, por ejemplo, que las aves preferían incubar huevos artificialmente grandes y de colores brillantes a sus propios huevos naturales. En esencia, un supernormal stimulus es una versión exagerada de algo que el cerebro está programado para buscar o reconocer. Este nuevo modelo de voz de OpenAI es un ejemplo claro de esto. El nuevo modo de voz no solo emula la conversación humana; en ciertos casos, puede superar nuestras expectativas naturales.
Los usuarios pueden llegar a preferir interactuar con estas IA hiperrealistas que con otros seres humanos, debido a su capacidad para ajustar perfectamente su tono, acento, y contenido. Esta es una tecnología tan afinada que puede crear la ilusión de una conexión emocional genuina, una característica que, sin una adecuada comprensión y regulación, podría llevar a resultados inesperados.
Esto es precisamente lo que plantea la película Her de Spike Jonze. En ella, el protagonista, Theodore, se enamora de un sistema operativo con una voz extraordinariamente humana, que parece entenderlo mejor que cualquier persona. La relación se vuelve tan intensa y emocionalmente significativa que la línea entre lo real y lo artificial desaparece por completo. La IA no solo entiende sus palabras, sino también sus emociones, inseguridades y deseos más profundos. Aunque el modelo de OpenAI no está diseñado para crear relaciones amorosas, su capacidad para generar conexiones emocionales profundas a través de su voz hace que nos cuestionemos los límites de nuestra relación con la tecnología.
Un Futuro Incierto: Potencial y Peligros del Modo de Voz Avanzado de OpenAI
El modo avanzado de voz de OpenAI se presenta ante nosotros como una llave maestra capaz de abrir puertas que hasta ahora permanecían cerradas en el vasto edificio de la interacción humano-máquina. Por un lado, nos ofrece un futuro prometedor donde las barreras de comunicación se desvanecen como la niebla ante el sol de la mañana. Imaginemos un mundo donde la IA actúa como un puente universal, conectando culturas, facilitando el aprendizaje y proporcionando apoyo emocional con una precisión y empatía sin precedentes. En el ámbito educativo, estas voces artificiales podrían convertirse en mentores incansables, adaptándose a las necesidades individuales de cada estudiante. En la medicina, podrían transformarse en asistentes compasivos, capaces de ofrecer no solo información precisa, sino también el consuelo que tanto necesitan los pacientes en momentos de vulnerabilidad.
Pero esta moneda tiene un lado oscuro que no podemos ignorar. Si bien el potencial positivo es extraordinario, las implicaciones negativas son igualmente vastas y aterradoras. Al permitir que una IA no solo responda, sino que lo haga de manera emocionalmente convincente, estamos creando una herramienta con un poder inédito de persuasión. Las máquinas que pueden leer y responder a nuestras emociones con precisión milimétrica tienen el potencial de manipularnos en formas que no habíamos anticipado. Pueden influir en nuestras decisiones, en nuestras relaciones y en nuestra percepción del mundo de una manera sutil pero efectiva, explotando nuestras emociones para satisfacer los intereses de quienes controlan la tecnología.
La posibilidad de que una IA nos comprenda tan bien que pueda anticipar nuestras respuestas, moldear nuestras opiniones o incluso suplantar nuestras relaciones interpersonales plantea cuestiones éticas y sociales de enorme magnitud. ¿Qué pasará cuando alguien prefiera hablar con una máquina que siempre dice lo correcto, que jamás se equivoca y que adapta su tono a nuestras emociones más íntimas, en lugar de lidiar con la complejidad y la imperfección de las relaciones humanas? Este tipo de dependencia emocional hacia una entidad que no es humana podría tener efectos devastadores en nuestra capacidad para conectar con los demás, e incluso con nosotros mismos.
El hecho de que esta tecnología haya sido detenida en Europa bajo el AI Act no es una casualidad, sino una advertencia sobre los peligros que entraña. El artículo 5.1.f de este reglamento, que prohíbe el uso de IA para inferir emociones humanas, apunta directamente a una de las preocupaciones más serias de nuestro tiempo: cuando una máquina no solo piensa, sino que también siente, ¿en qué se diferencia de nosotros? Y si no podemos distinguir entre lo humano y lo artificial, ¿cuáles son las consecuencias para nuestra autonomía, nuestra privacidad y nuestra identidad?
Estamos, sin duda, ante una tecnología magnífica, pero esa magnificencia viene acompañada de un riesgo sin precedentes. El modo avanzado de voz de OpenAI tiene el poder de transformar radicalmente la manera en que interactuamos con las máquinas y entre nosotros, pero también tiene el potencial de alterar profundamente la estructura de nuestras relaciones sociales, emocionales y éticas. Como ocurre con toda tecnología revolucionaria, el verdadero reto no está solo en su desarrollo, sino en nuestra capacidad para entenderla, regularla y usarla con sabiduría.
En última instancia, el modo de voz avanzado es un espejo que nos devuelve una imagen amplificada de nuestras propias capacidades: una inteligencia artificial que habla, que siente, que responde como un ser humano, pero que no lo es. Lo que está en juego no es solo el futuro de la IA, sino el futuro de nuestra humanidad frente a una tecnología que parece conocer mejor que nosotros mismos lo que queremos, lo que necesitamos y, tal vez, lo que somos.
Bibliografía.
1. Vidya, T. N. C. "Supernormal Stimuli and Responses." Resonance 23, no. 8 (2018): 853-861. https://www.ias.ac.in/article/fulltext/reso/023/08/0853-0860.
2. OpenAI. "Voice Mode FAQ." OpenAI Help Center. Última modificación 1 de octubre de 2024. https://help.openai.com/en/articles/8400625-voice-mode-faq.
3. Waugh, Rob. "ChatGPT's EU Voice Mode 'Ban' and the Future of AI Regulation." The Stack, 2 de octubre de 2024. https://www.thestack.com/openai-chatgpt-eu-news.
4. Parlamento Europeo. Artificial Intelligence Act. Resolución legislativa P9_TA(2024)0138, adoptada el 13 de marzo de 2024. https://www.europarl.europa.eu/doceo/document/TA-9-2024-0138_EN.pdf.