Una tecnología pionera ayuda a un hombre con ELA a «hablar» en tiempo real
Una neuroprótesis convierte actividad cerebral en voz al instante. Científicos de UC Davis dan esperanza a personas con ELA y parálisis del habla.
Por Enrique Coperías
El participante del estudio, inscrito en el ensayo clínico BrainGate2 de la UC Davis Health, se comunica mediante una interfaz cerebro-computadora experimental. El sistema incluye cuatro conjuntos de microelectrodos implantados quirúrgicamente en la región cerebral encargada del habla. Estos dispositivos registran la actividad neuronal y la envían a una computadora que interpreta las señales para reconstruir su voz. Cortesía: UC Davis Health
Perder la capacidad de hablar, de expresarse o de ser comprendido es una de las consecuencias más devastadoras de muchas enfermedades neurológicas. Pero ahora, un avance tecnológico sin precedentes ofrece una nueva esperanza: investigadores de la Universidad de California en Davis (UC Davis), en Estados Unidos, han desarrollado una neuroprótesis cerebral capaz de transformar directamente la actividad neuronal en voz hablada, de forma instantánea y expresiva.
El hallazgo, publicado recientemente en la revista Nature, representa un salto cualitativo respecto a los sistemas anteriores, que se limitaban a traducir el pensamiento en texto.
Esta nueva interfaz cerebro-computadora permite que personas con parálisis del habla, como las que padecen esclerosis lateral amiotrófica (ELA), puedan hablar en tiempo real, recuperar su entonación natural e incluso cantar. Un hito que los autores califican como «la creación de una laringe digital».
Interfaz cerebro-computadora con síntesis de voz: mucho más que convertir pensamiento en texto
«Traducir la actividad cerebral en texto es como enviar un mensaje —explica Sergey Stavisky, autor principal del estudio y profesor del Departamento de Cirugía Neurológica de la UC Davis. Y añade—: Es mejor que no poder comunicarse, pero sigue siendo lento. En cambio, con esta nueva síntesis instantánea de voz, es como hacer una llamada telefónica. El usuario puede interrumpir, responder con naturalidad y participar activamente en una conversación».
El sistema fue probado en un paciente de 45 años, identificado como T15, diagnosticado con ELA. Aunque aún conserva la capacidad de emitir sonidos, su habla es ininteligible. Para restablecer su capacidad de comunicarse, los investigadores implantaron cuatro arrays o matrices de microelectrodos en regiones específicas del cerebro relacionadas con el control del habla; entre ellas, la corteza precentral ventral. Esta parte de la corteza motora y está implicada en el control de los movimientos del habla y de la boca.
Un desafío sin precedentes: decodificar el habla sin oírla
Los electrodos cerebrales registran la actividad eléctrica de las neuronas y transmiten esa información a una computadora equipada con algoritmos de inteligencia artificial (IA). Estos algoritmos interpretan las señales y las convierten en sonidos que reproducen lo que la persona intenta decir. Y no solo reproducen las palabras, sino su ritmo, tono e intención emocional.
Una de las mayores barreras a superar era la falta de un modelo de referencia. «El principal obstáculo era no saber exactamente cuándo y cómo una persona con pérdida del habla está intentando hablar», explica Maitreyee Wairagkar, primera autora del estudio y científica del proyecto en el Laboratorio de Neuroprótesis de la UC Davis.
Para resolverlo, el equipo desarrolló un sistema que genera versiones sintéticas del habla a partir del texto que el paciente debía pronunciar. Luego, alinearon esas frases con la actividad neuronal del paciente al intentar hablarlas, detectando límites silábicos directamente a partir de las señales cerebrales. Este enfoque permitió entrenar los algoritmos de voz sin necesidad de tener grabaciones reales del habla del paciente, algo esencial dado que no puede vocalizar con claridad.
Con esta metodología, lograron reconstruir en tiempo real una voz que no solo decía las palabras deseadas, sino que lo hacía al ritmo que el usuario intentaba, adaptándose a pausas, énfasis y cadencias naturales del habla humana.
Modelo tridimensional de cerebro y matriz de microelectrodos. Cortesía: UC Regents
Voz sintética personalizada: recuperar el sonido de la propia identidad
Más allá del contenido, el sistema también fue capaz de imitar la voz original del paciente, utilizando técnicas de clonación de voz que generaban una versión personalizada de cómo hablaba antes de la enfermedad. Cuando se le pidió que usara esta versión de su voz real sintetizada, T15 afirmó sentirse feliz. «Me pareció mi voz de verdad», ha declarado este paciente con ELA.
Esta dimensión emocional del habla —la identificación con la propia voz— es, según los investigadores, fundamental para restaurar no solo la comunicación, sino también la identidad del hablante.
Durante las sesiones de prueba, los resultados fueron sorprendentes: oyentes humanos, sin experiencia previa, fueron capaces de entender casi el 60% de las frases sintetizadas por la nueva interfaz cerebro-computadora. En comparación, solo entendían un 4% cuando T15 intentaba hablar sin asistencia.
Más que palabras: preguntas, entonaciones e incluso canciones
Lo que distingue a este avance de otras tecnologías anteriores es su capacidad para reproducir las sutilezas del lenguaje hablado. La interfaz no solo convierte pensamiento en palabras, sino que permite a la persona enfatizar términos, hacer preguntas (variando la entonación final de las frases), producir interjecciones como «hmm» o «aah» y hasta cantar melodías simples con distintos tonos.
«La voz humana no es solo contenido lingüístico. También transmite emociones, intenciones, ritmo y musicalidad. Nuestro sistema permite que todo eso vuelva a estar presente», subraya Wairagkar.
Para lograrlo, los investigadores entrenaron decodificadores de tono e intensidad, capaces de interpretar cuándo el paciente quería hablar más rápido o más lento, más alto o más bajo, o con una entonación interrogativa. En pruebas controladas, la precisión de estas modulaciones fue superior al 90%.
Además, el sistema demostró su flexibilidad al generar sonidos nuevos que no formaban parte del entrenamiento. T15 pudo decir palabras inventadas, deletrear letras, responder preguntas abiertas y realizar intervenciones espontáneas. «Esto demuestra que no estamos limitados a un vocabulario cerrado», destaca Stavisky en un comunicado de la UC David.
Inteligencia artificial en milisegundos
El secreto de esta fluidez está en la velocidad del procesamiento. El sistema logra transformar la actividad cerebral en sonido en apenas 10 milisegundos, una latencia comparable a la que experimentamos al oír nuestra propia voz mientras hablamos. Este tiempo de reacción es esencial para lograr una comunicación natural, sin interrupciones ni desfases.
Detrás de este rendimiento se encuentra una arquitectura de redes neuronales basada en el modelo Transformer —la misma que impulsa a muchos sistemas de IA actuales—, entrenada con miles de fragmentos de actividad cerebral y alineada con características acústicas como frecuencia, ritmo y timbre.
Un sintetizador vocal (vocoder) se encarga de convertir esas predicciones en voz real reproducida a través de un altavoz.
El nuevo interfaz cerebro-computadora permitió al participante en el estudio, que padece ELA, «hablar» a través de un ordenador con su familia en tiempo real, cambiar su entonación y «cantar» melodías sencillas. Cortesía: UC Regents
Una ventana al funcionamiento interno del habla
El estudio también ofrece nuevos conocimientos sobre cómo el cerebro organiza y prepara el habla. Al analizar la actividad cerebral antes y durante la emisión de cada palabra, los investigadores observaron patrones neuronales anticipados, especialmente cuando el paciente modulaba su entonación.
Esta anticipación, conocida como actividad output-null, podría ser una especie de preparación silenciosa del sistema motor del habla, y abre la puerta a mejorar aún más la precisión de las interfaces futuras.
Aunque los resultados son prometedores, los propios autores reconocen que estamos ante una tecnología en fase inicial. Por ahora, solo se ha probado en una persona con ELA, y será necesario replicar los resultados en más participantes y con diferentes causas de pérdida del habla, como ictus, traumatismos y enfermedades neuromusculares.
Aun así, el impacto potencial es enorme. «Nuestra voz forma parte de lo que somos. Perderla es devastador —reflexiona David Brandman, coautor del estudio, neurocirujano y codirector del Laboratorio de Neuroprótesis de UC Davis. Y continúa—: Este trabajo demuestra que es posible devolverle la voz a alguien que la ha perdido. Puede transformar la vida de muchas personas con parálisis».
Brandman fue el responsable de la cirugía de implantación de los microelectrodos cerebrales y forma parte del ensayo clínico BrainGate2, que busca desarrollar tecnologías que restauren funciones neurológicas mediante interfaces cerebro-computadora.
El futuro: un sistema unificado y entrenable
Uno de los próximos pasos será integrar todos los decodificadores en un solo modelo unificado, capaz de aprender no solo el contenido verbal sino también los matices expresivos de cada usuario. Para ello, se prevé aprovechar el aprendizaje progresivo del usuario, quien, al recibir retroalimentación inmediata, podrá afinar su control mental sobre la voz digital, mejorando con el uso continuo.
Además, se espera que con más datos y mejoras en los algoritmos y en la densidad de electrodos implantados, la calidad e inteligibilidad de la voz sintetizada aumenten aún más.
Lo que comenzó como un experimento con un solo paciente ya ha generado una revolución conceptual: la posibilidad de que el pensamiento vuelva a tener voz, no solo en texto, sino con toda la riqueza expresiva del lenguaje hablado. Un futuro en el que las ideas de quienes no pueden hablar volverán a resonar con fuerza, claridad y emoción. ▪️
Información facilitada por la University of California - Davis Health
Fuente: Wairagkar, M. et al. An instantaneous voice-synthesis neuroprosthesis. Nature (2025). DOI: https://doi.org/10.1038/s41586-025-09127-3