Una neuroprótesis cerebro-voz restablece el habla natural a una mujer tras veinte años de silencio
Un equipo de científicos ha logrado traducir pensamientos en voz de una mujer llamada Ann casi en tiempo real con la ayuda de la inteligencia artificial. Este avance pionero en neurotecnología da esperanza a personas que han perdido la capacidad de hablar.
Por Enrique Coperías
Un investigador conecta el implante cerebral de una voluntaria llamada Ann a la computadora sintetizadora de voz. Foto de Noah Berger
Un equipo de investigadores de las universidades de Berkeley (UC Berkeley) y San Francisco (UCSF), en Estados Unidos, ha logrado devolver el habla natural a personas con parálisis grave, lo que supone todo un hito en el desarrollo de las interfaces cerebro-ordenador (BCI).
El avance resuelve el antiguo problema de la latencia en las neuroprótesis del habla: el retraso entre el intento de hablar y la emisión del sonido. Gracias a innovaciones recientes en modelos de inteligencia artificial (IA), los investigadores desarrollaron un método de transmisión capaz de convertir señales cerebrales en habla audible casi en tiempo real.
Según se publica en Nature Neuroscience, esta tecnología de interfaz cerebro-computadora supone un avance crucial para restablecer la comunicación en personas con parálisis. El estudio cuenta con el respaldo del Instituto Nacional de la Sordera y Otros Trastornos de la Comunicación (NIDCD) de los Institutos Nacionales de la Salud estadounidenses.
Una síntesis del habla mucho más natural y fluida
«Nuestro enfoque de streaming aporta a las neuroprótesis la misma capacidad de descodificación rápida del habla que dispositivos como Alexa y Siri —dice en una nota de prensa Gopala Anumanchipalli, catedrático de Ingeniería Eléctrica y Ciencias de la Computación en la UC Berkeley y coinvestigador principal. Y añade—: Al usar algoritmos similares, descubrimos que podíamos descodificar datos neuronales y, por primera vez, hacer posible una transmisión de voz casi sincrónica. El resultado es una síntesis del habla mucho más natural y fluida».
«Esta nueva tecnología tiene un enorme potencial para mejorar la calidad de vida de personas con parálisis graves que afectan al habla —comenta el neurocirujano Edward Chang, coinvestigador principal del estudio.
Chang lidera el ensayo clínico en la UCSF que desarrolla neuroprótesis del habla mediante matrices de electrodos de alta densidad que registran directamente desde la superficie cerebral. «Es emocionante ver cómo los avances recientes en IA están acelerando el desarrollo práctico de las interfaces cerebro-ordenador para su uso en el mundo real en un futuro próximo», dice Chang.
La neuroprótesis capta datos neuronales de la corteza motora
El equipo también demostró que su enfoque funciona con otras tecnologías de detección cerebral, como las matrices de microelectrodos (MEA), que penetran en el cerebro, y los sensores no invasivos de electromiografía de superficie (sEMG), que detectan la actividad muscular facial.
«Al mostrar la precisión de la síntesis cerebro-voz con otros conjuntos de datos de habla silenciosa, demostramos que esta técnica no está limitada a un único tipo de dispositivo —afirma Kaylo Littlejohn, estudiante de doctorado en Ingeniería Eléctrica e Informática en la UC Berkeley y coautor principal del estudio. Y continúa—: El mismo algoritmo puede aplicarse en distintas modalidades, siempre que la señal sea buena».
Según Cheol Jun Cho, coautor del estudio y también estudiante de doctorado en Berkeley, la neuroprótesis funciona captando datos neuronales de la corteza motora, que controla la producción del habla, y luego usa IA para traducir esa actividad cerebral en habla.
«Básicamente, interceptamos las señales justo cuando el pensamiento se transforma en articulación, en pleno proceso del control motor — explica Cho—. Lo que descodificamos es posterior a la intención: después de decidir qué decir, qué palabras usar y cómo mover los músculos del tracto vocal».
Para entrenar el algoritmo, los investigadores pidieron a Ann, la participante en los ensayos que llevaba dos décadas sin poder hablar debido a un ictus, que mirara frases en una pantalla —como «Hola, ¿cómo estás?»— y las intentara pronunciar en silencio.
«Esto nos dio una correspondencia entre los fragmentos de actividad cerebral que generaba y la frase que intentaba decir, sin necesidad de vocalizar en ningún momento», explica Littlejohn.
La voz se sintetiza casi en tiempo real
Como Ann no tiene vocalización residual, no existía un audio de referencia con el que alinear las señales cerebrales. Para solucionar esto, recurrieron a la inteligencia artificial.
«Utilizamos un modelo de texto a voz previamente entrenado para generar un audio simulado como objetivo —detalla Cho—. También empleamos grabaciones de la voz de Ann antes de su lesión cerebral, de modo que, al descodificar la salida, sonara más como ella».
En un estudio anterior, el sistema necesitaba unos ocho segundos para generar una sola frase. Con este nuevo enfoque, el habla se produce casi en tiempo real, al mismo tiempo que la persona intenta hablar.
Hablar de forma fluida y sin interrupciones
Para evaluar la latencia, los científicos usaron detectores del inicio del habla que identifican las señales cerebrales asociadas al intento de hablar.
«En menos de un segundo tras esa señal, se emite el primer sonido —afirma Anumanchipalli—. Y el dispositivo puede continuar descodificando el habla, permitiendo que Ann hable de forma fluida y sin interrupciones».
Este aumento de velocidad no comprometió la precisión. El nuevo sistema ofreció la misma exactitud en la descodificación que el método anterior, que no era continuo.
«Resulta prometedor», señala Littlejohn. Y añade—. Hasta ahora no se sabía si era posible transmitir habla inteligible directamente desde el cerebro en tiempo real».
Los investigadores demuestran un método de transmisión que sintetiza señales cerebrales en habla audible casi en tiempo real utilizando electrocorticografía.
Alpha, Bravo y Charlie
Anumanchipalli añade que aún no está claro si los modelos de IA a gran escala están aprendiendo de verdad o simplemente repitiendo patrones de entrenamiento. Por eso, el equipo también evaluó la capacidad del modelo para sintetizar palabras nuevas que no estaban en los datos originales. Para ello, utilizaron veintiséis términos raros del alfabeto fonético de la OTAN, como Alpha, Bravo y Charlie.
«Queríamos comprobar si podíamos generalizar a palabras no vistas y realmente descodificar los patrones de habla de Ann», señala Anumanchipalli— Y descubrimos que nuestro modelo lo hace bien, lo que indica que sí está aprendiendo los componentes básicos del sonido y la voz».
Ann, que también participó en el estudio de 2023, compartió cómo percibió la diferencia entre el enfoque anterior, basado en texto, y el nuevo método de síntesis en streaming.
¡A seguir refinando el algoritmo!
«Comentó que la síntesis en streaming le ofrecía un mayor control voluntario —dice Anumanchipalli. Y añade—: Escuchar su propia voz casi en tiempo real aumentó su sensación de encarnación». O sea, la sensación de habitar el propio cuerpo, de tener control y conexión con uno mismo, especialmente a través del habla.
Este nuevo avance acerca a los investigadores un paso más hacia una comunicación natural mediante interfaces cerebro-ordenador, y sienta las bases para desarrollos futuros.
«Este marco de prueba de concepto supone un gran paso adelante —sostiene Cho. Y continúa—: Somos optimistas: ahora podemos progresar en todos los niveles. Desde el punto de vista de la ingeniería, por ejemplo, vamos a seguir refinando el algoritmo para lograr un habla más rápida y mejor».
Un toque de emoción
El equipo también trabaja en dotar de expresividad a la voz sintetizada, esto es, captar las variaciones de tono, de intensidad o de volumen que forman parte del habla humana, como cuando alguien se emociona.
«Estamos investigando hasta qué punto podemos descodificar estas características paralingüísticas a partir de la actividad cerebral —adelanta Littlejohn. Y concluye—: Es un reto que persiste incluso en la síntesis de audio convencional, y superarlo nos acercaría a una comunicación completamente natural». ▪️
Información facilitada por la Berkeley Engineering
Fuente: Littlejohn, K.T., Cho, C.J., Liu, J.R. et al. A streaming brain-to-voice neuroprosthesis to restore naturalistic communication. Nature Neuroscience (2025). DOI: https://doi.org/10.1038/s41593-025-01905-6