Apple ha presentado VSSFlow, un nuevo modelo de inteligencia artificial que genera sonidos y voz con una arquitectura unificada y resultados de última generación. A continuación, se muestran algunas demostraciones para ver y escuchar.
El problema
Actualmente, la mayoría de los modelos de video a sonido (es decir, modelos entrenados para generar sonidos a partir de videos silenciosos) no son muy buenos generando voz. De igual manera, la mayoría de los modelos de texto a voz fallan al generar sonidos no verbales, ya que están diseñados para un propósito diferente.
Además, los intentos previos de unificar ambas tareas a menudo se basan en la suposición de que el entrenamiento conjunto degrada el rendimiento, lo que lleva a configuraciones que enseñan el habla y el sonido en etapas separadas, añadiendo complejidad a la canalización.
Ante este escenario, tres investigadores de Apple, junto con seis investigadores de la Universidad Renmin de China, desarrollaron VSSFlow, un nuevo modelo de IA capaz de generar tanto efectos de sonido como voz a partir de videos silenciosos en un único sistema.
No solo eso, sino que la arquitectura que han desarrollado funciona de tal manera que el entrenamiento del habla mejora el entrenamiento del sonido, y viceversa, en lugar de interferir entre sí.
La solución
En esencia, VSSFlow aprovecha múltiples conceptos de la IA generativa, incluyendo la conversión de transcripciones en secuencias de fonemas de tokens, y el aprendizaje para reconstruir el sonido a partir del ruido con el «flow-matching», que ya cubrimos aquí, entrenando esencialmente al modelo para comenzar de manera eficiente desde ruido aleatorio y terminar con la señal deseada.
Todo esto está integrado en una arquitectura de 10 capas que mezcla directamente las señales de video y transcripción en el proceso de generación de audio, permitiendo que el modelo maneje tanto los efectos de sonido como el habla dentro de un único sistema.
Quizás lo más interesante es que los investigadores señalan que el entrenamiento conjunto con voz y sonido realmente mejoró el rendimiento en ambas tareas, en lugar de provocar que compitan o degraden el rendimiento general de cualquiera de las dos.
Para entrenar VSSFlow, los investigadores alimentaron al modelo con una combinación de videos silenciosos emparejados con sonidos ambientales (V2S), videos de personas hablando en silencio emparejados con transcripciones (VisualTTS) y datos de texto a voz (TTS), permitiéndole aprender tanto los efectos de sonido como el diálogo hablado juntos en un único proceso de entrenamiento de extremo a extremo.
Es importante destacar que, inicialmente, VSSFlow no era capaz de generar automáticamente sonido de fondo y diálogo hablado al mismo tiempo en una única salida.
Para lograrlo, afinaron su modelo ya entrenado con un gran conjunto de ejemplos sintéticos en los que se mezclaron el habla y los sonidos ambientales, para que el modelo aprendiera cómo deberían sonar ambos simultáneamente.
Poniendo VSSFlow en funcionamiento
Para generar sonido y voz a partir de un video silencioso, el modelo comienza con ruido aleatorio y utiliza pistas visuales muestreadas del video a 10 fotogramas por segundo para dar forma a los sonidos ambientales. Al mismo tiempo, una transcripción de lo que se dice proporciona una guía precisa para la voz generada.
Cuando se probó frente a modelos específicos de tareas construidos solo para efectos de sonido o solo para voz, VSSFlow ofreció resultados competitivos en ambas tareas, liderando en varias métricas clave a pesar de utilizar un único sistema unificado.

Los investigadores publicaron múltiples demostraciones de sonido, voz y generación conjunta (a partir de videos de Veo3), así como comparaciones entre VSSFlow y múltiples modelos alternativos. Puede ver algunos de los resultados a continuación, pero asegúrese de visitar la página de demostraciones para verlos todos.
Y aquí hay algo realmente interesante: los investigadores han puesto el código de VSSFlow a disposición del público en GitHub, y están trabajando para abrir también los pesos del modelo. Además, están trabajando para proporcionar una demostración de inferencia.
En cuanto a lo que podría venir después, los investigadores dijeron:
Este trabajo presenta un modelo de flujo unificado que integra las tareas de video a sonido (V2S) y texto a voz visual (VisualTTS), estableciendo un nuevo paradigma para la generación de sonido y voz condicionada por video. Nuestro marco demuestra un mecanismo eficaz de agregación de condiciones para incorporar las condiciones de voz y video en la arquitectura DiT. Además, revelamos un efecto de refuerzo mutuo del aprendizaje conjunto de sonido y voz a través del análisis, destacando el valor de un modelo de generación unificado. Para futuras investigaciones, hay varias direcciones que merecen una mayor exploración. En primer lugar, la escasez de datos de video, voz y sonido de alta calidad limita el desarrollo de modelos generativos unificados. Además, desarrollar mejores métodos de representación para el sonido y la voz, que puedan preservar los detalles del habla manteniendo dimensiones compactas, es un desafío crítico para el futuro.
Para obtener más información sobre el estudio, titulado “VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning”, siga este enlace.
Ofertas de accesorios en Amazon
FTC: We use income earning auto affiliate links. More.


