¿Cuánto audio se necesita para clonar la voz?

Se recomienda un mínimo de 60 minutos de audio claro de la persona hablando de forma natural. Este audio puede ser compilado de diferentes fuentes: mensajes de WhatsApp, videos familiares, grabaciones diversas. Con más material (idealmente 90+ minutos), la voz resultante suele ser más estable y fiel.

¿Es legal y ético clonar una voz para ELA?

Sí, cuando existe consentimiento explícito y el uso está limitado a la comunicación asistida personal. Los servicios serios piden documentación y aplican medidas para evitar usos indebidos.

¿Qué opciones hay en España para crear un banco de voz?

Hay iniciativas públicas/hospitalarias, proyectos académicos y servicios privados especializados. La mejor opción depende de disponibilidad, tiempos, requisitos y necesidad de integración con el comunicador.

Tecnología

Banco de voz para personas con ELA: qué es, cómo funciona y opciones en España

La esclerosis lateral amiotrófica (ELA) puede provocar la pérdida total del habla. Pero hoy existen formas reales de preservar la voz antes de que eso ocurra o incluso recuperarla a partir de grabaciones antiguas. En esta guía te explicamos qué es un banco de voz, cómo funciona la clonación de voz con inteligencia artificial y qué opciones tienen las familias en España.

RecuperaMiVoz 14 de febrero de 2026 5 min

Respuesta rápida: en España hay tres vías para crear un banco de voz para ELA: iniciativas públicas (hospitales/administración), proyectos universitarios (investigación) y servicios privados especializados. La mejor opción depende del tiempo disponible, el estado del habla, el audio existente y la necesidad de integración con el comunicador.

Qué es un banco de voz

Un banco de voz es el proceso por el cual se recopilan grabaciones de la voz de una persona para crear una voz sintética personalizada que pueda utilizar más adelante desde un comunicador de comunicación asistida.

A diferencia de las voces genéricas que incluyen muchos dispositivos (que pueden sonar robóticas o impersonales), un banco de voz intenta conservar rasgos reconocibles: timbre, ritmo, acento y una parte de la identidad sonora.

Banco de mensajes vs. banco de voz (no es lo mismo)

Banco de mensajes: se graban frases concretas (“te quiero”, “pásame el agua”). Útil, pero limitado a lo grabado.
Banco de voz (clonación de voz): se entrena un modelo con IA que puede decir cualquier texto nuevo con una voz similar a la original.

Por qué es importante para personas con ELA

La ELA afecta progresivamente a los músculos implicados en el habla. Es frecuente que aparezca disartria (dificultad creciente para articular) que puede evolucionar hasta la pérdida total de la voz.

Cuando esto ocurre, la persona suele comunicarse mediante CAA (Comunicación Aumentativa y Alternativa) a través de un software o dispositivo (por ejemplo Grid 3, Tobii Dynavox o IRISBOND), convirtiendo texto en voz.

El problema es emocional y práctico: las voces genéricas no suenan como la persona. Para muchas familias, ese cambio añade un golpe de realidad extra.

Preservar la voz no es solo una cuestión técnica. Es preservar parte de la identidad de la persona.

Cómo funciona la clonación de voz con IA

La clonación de voz utiliza modelos de IA (redes neuronales) para aprender patrones de una voz a partir de grabaciones. En la práctica, el proceso suele seguir estos pasos:

Recopilación de audio: grabaciones claras (WhatsApp, vídeos familiares, audios grabados a propósito).
Curación del audio: se descartan fragmentos con ruido, música o solapamiento de voces (esto mejora mucho el resultado).
Entrenamiento del modelo: el sistema aprende timbre, entonación, ritmo y características de pronunciación.
Generación: el modelo convierte cualquier texto en audio con esa voz.
Integración: la voz se vincula al software AAC/CAA que use la persona.

Cuánto audio se necesita (realista)

La calidad final depende de la calidad y la cantidad del audio. Como referencia práctica:

60 minutos+ de audio claro (pueden ser fragmentos de diferentes fuentes: WhatsApp, videos) son el mínimo recomendado para resultados óptimos.
Con más material (y bien variado) el modelo suele ser más estable y fiel.
Audios con ruido, música o voces solapadas empeoran la estabilidad (aunque se puede limpiar y seleccionar).

¿Cuándo hay que actuar?

Cuanto antes, mejor.

Si la persona con ELA todavía puede hablar, aunque sea con dificultad, es el momento ideal para grabar material. En fases tempranas, la voz conserva rasgos que luego pueden perderse.

Si ya no puede hablar, todavía es posible trabajar con grabaciones antiguas (WhatsApp, vídeos, audios). No es lo ideal, pero puede ser viable.

Opciones disponibles en España

Iniciativas públicas y académicas

En España han surgido iniciativas públicas y proyectos universitarios que buscan facilitar la preservación de voz. Suelen ser valiosas, pero pueden tener limitaciones: disponibilidad, listas de espera, criterios de acceso o fase de desarrollo.

Servicios privados

RecuperaMiVoz ofrece un servicio especializado para familias, orientado a: análisis del material, entrenamiento de voz, integración con software de comunicación asistida y acompañamiento durante el proceso.

Opciones internacionales

Existen opciones fuera de España (plataformas y servicios internacionales). La clave es comprobar: soporte en español, requisitos de grabación y compatibilidad con el comunicador.

Comparativa de opciones de banco de voz en España

Si quieres decidir rápido, esta comparativa resume lo esencial:

Opción	Coste	Disponibilidad	Soporte en español	Integración con AAC/CAA	Acompañamiento
Iniciativas públicas	Gratuito	Limitada / puede haber listas de espera	Sí	Variable (según el programa)	Entorno hospitalario / institucional
Proyectos universitarios	Gratuito / experimental	Muy limitada (casos concretos)	Sí	Limitada (depende del proyecto)	Orientado a investigación
Servicios privados especializados	De pago	Sin listas de espera (normalmente)	Sí	Integración personalizada	Atención directa a familia/paciente

Qué necesitas para empezar (checklist práctico)

Reunir audio: WhatsApp, vídeos, notas de voz, audios grabados a propósito.
Seleccionar lo usable: prioriza fragmentos con voz clara y poco ruido.
Identificar el comunicador: saber si usaréis Grid 3 u otra solución ayuda a la integración.
Consentimiento: tener listo consentimiento explícito y documentación necesaria.

Errores frecuentes al crear un banco de voz

Esperar demasiado: cuando la voz ya está muy deteriorada, el resultado suele empeorar.
Usar audios con música o ruido constante de fondo.
No confirmar compatibilidad con el comunicador (y luego descubrir limitaciones).
No documentar bien el consentimiento y el uso permitido de la voz.
Creer que 2–3 minutos bastan: a veces se puede, pero es más inestable.

Aspectos legales y consentimiento

La clonación de voz debe hacerse con consentimiento explícito del paciente y con un marco de uso claro: comunicación asistida personal. Esto protege al paciente y evita usos no deseados.

En servicios profesionales se suele requerir verificación de identidad y documentación para dejar constancia del permiso y del alcance del uso.

Por qué este tema es relevante en 2026

La IA aplicada a voz ha avanzado mucho: hoy es posible reconstruir voces con menos audio que hace pocos años, lo que abre la puerta a familias que solo conservan mensajes o vídeos. Aun así, el factor decisivo sigue siendo el mismo: actuar a tiempo y aportar audio claro.

Preguntas frecuentes

¿Es demasiado tarde si ya no puede hablar?

No necesariamente. Si existen grabaciones previas con su voz original (mensajes de WhatsApp, vídeos familiares, etc.), es posible trabajar con ese material. El resultado dependerá de la cantidad y calidad de las grabaciones disponibles.

¿Cuánto audio se necesita?

Como referencia práctica, entre 60 y 90 minutos de audio claro suele ser un punto de partida razonable. Con más material, el resultado será más fiel y estable.

¿La voz clonada es idéntica a la original?

No es una copia perfecta. Es una aproximación que conserva timbre, entonación y rasgos principales. La familia suele reconocerla, aunque puede notar diferencias sutiles.

¿Es ético clonar una voz?

Cuando se hace con consentimiento explícito y para uso personal del paciente, es una aplicación legítima y beneficiosa de la tecnología. Los servicios serios exigen consentimiento documentado y limitan el uso a la comunicación asistida personal.

¿Cuánto cuesta?

Depende del servicio. Las opciones públicas suelen ser gratuitas pero limitadas en disponibilidad. Los servicios privados incluyen el proceso completo. Puedes consultar los precios actualizados aquí.