Subido por vovifi4983

Hifigan-Mejoramiento de voz en off tipo hecho en un estudio de grabación-Funcionamiento-Español

Anuncio
Traducido del inglés al español - www.onlinedoctranslator.com
HiFi-GAN: Eliminación de ruido y desreverberación de alta fidelidad
basada en funciones profundas de voz en redes antagónicas
jiaqi su1,2, Zeyu-jin2, Adam Finkelstein1
1Universidad
de Princeton
1{jiaqis,af}@princeton.edu
Resumen
Las grabaciones de audio del mundo real a menudo se degradan debido a
factores como el ruido, la reverberación y la distorsión de ecualización. Este
documento presenta HiFi-GAN, un método de aprendizaje profundo para
transformar el habla grabada en sonido como si se hubiera grabado en un
arXiv:2006.05694v2 [eess.AS] 21 de septiembre de 2020
estudio. Utilizamos una arquitectura WaveNet de avance de punta a punta,
entrenada con discriminadores adversarios de múltiples escalas tanto en el
dominio del tiempo como en el dominio de la frecuencia del tiempo. Se basa en
las pérdidas de coincidencia de características profundas de los discriminadores
para mejorar la calidad de percepción del habla mejorada. El modelo propuesto
se generaliza bien a nuevos hablantes, nuevos contenidos de habla y nuevos
entornos. Supera significativamente a los métodos de referencia de última
generación tanto en experimentos objetivos como subjetivos. Términos del
Índice:mejora del habla, eliminación de ruido, eliminación de reverberación,
redes antagónicas generativas, características profundas
1. Introducción
2Investigación
de adobe
2zejin@adobe.com
la estructura U-Net al dominio del tiempo para combinar funciones en diferentes
escalas de tiempo para tareas de separación y mejora del habla [18, 19]. Los
métodos basados en formas de onda tienden a producir menos artefactos
inducidos por fase pero tienen sus propias distorsiones. Nuestros experimentos
también los encuentran sensibles a los datos de entrenamiento y difíciles de
generalizar a ruidos y reverberaciones desconocidos.
Las redes antagónicas generativas (GAN) mejoran la autenticidad del
audio sintetizado al incorporar una pérdida antagónica de un
discriminador [20, 21]. El discriminador aprende a identificar si un ejemplo
de audio dado es real o falso, para alentar al generador a aproximarse
mejor a la distribución de datos reales. Si bien los investigadores han
explorado las características espectrales de las GAN [6, 22], SEGAN [23] y
los siguientes trabajos [24, 25] muestran un éxito inicial de las GAN
operadas en forma de onda para mejorar el habla. Reducen los artefactos
en comparación con otras redes basadas en formas de onda, pero cada
una tiene su propio artefacto único que se vuelve más notorio para una
entrada más distorsionada.
Dado que el oído humano es sensible a la incoherencia en la señal inducida
Las grabaciones del mundo real capturadas en espacios naturales con
por artefactos, es necesario modelar la percepción humana y utilizarla como
dispositivos de consumo suelen contener una amplia variedad de ruido,
objetivos de optimización. MetricGAN [22] y QualityNet [26] optimizan
reverberación y distorsión de ecualización. Sin embargo, muchas
directamente sobre aproximaciones diferenciables de métricas objetivas como
aplicaciones se beneficiarían de grabaciones limpias y de alta calidad. Los
PESQ y STOI; ayudan a reducir los artefactos, pero no de manera significativa, ya
investigadores han desarrollado una variedad de métodos para reducir el
que las métricas se correlacionan mal con la percepción humana a distancias
ruido [1, 2], reducir la reverberación [3, 4], corregir la ecualización [5] o
cortas. Como otra forma de modelar la similitud perceptiva, la pérdida de
mejorar el habla para tareas posteriores como el reconocimiento de voz
características profundas utiliza mapas de características aprendidos para tareas
[6]. Sin embargo, el problema combinado de eliminación de ruido,
de reconocimiento (que pueden verse como percepción de máquina) para
desreverberación y ecualización no se aborda suficientemente. El objetivo
aproximar la percepción humana de otras tareas, por ejemplo, eliminación de
de este documento es mejorar el habla grabada económica del mundo
ruido [27]. Sin embargo, este enfoque se basa en un espacio de características
real para que suene como grabaciones profesionales con calidad de
fijas aprendidas a través de una tarea no relacionada con la eliminación de ruido
estudio para grabaciones de audio de un solo canal.
y, por lo tanto, puede tener un rendimiento inferior en escenarios de
Los métodos tradicionales de procesamiento de señales, como el
filtrado de Wiener [2], el error de predicción lineal ponderado [7] y la
aplicaciones posteriores con diferentes estadísticas de sonido.
Dadas las deficiencias de los métodos anteriores, proponemos HiFi-GAN
factorización de matriz no negativa [8, 9], operan en el dominio de tiempo-
que combina una arquitectura WaveNet de avance de extremo a extremo con la
frecuencia utilizando el conocimiento previo de la estructura espectral del
idea de una combinación profunda de características en el entrenamiento
habla. Se generalizan bien en todas las condiciones ambientales, pero solo
adversario, operado tanto en el dominio del tiempo como en el dominio de la
ofrecen una reducción modesta del ruido y la reverberación. Los enfoques
frecuencia del tiempo. Usamos un conjunto de discriminadores en la forma de
modernos utilizan el aprendizaje automático para modelar el mapeo de
onda muestreada a diferentes velocidades, así como un discriminador en el
una señal reverberante ruidosa a una señal limpia y ofrecen un
espectrograma de mel. Estos discriminadores evalúan conjuntamente varios
rendimiento sustancialmente mejorado en comparación con los métodos
aspectos del audio generado, mejorando así su calidad percibida. Las pérdidas
tradicionales. Los métodos basados en espectros transforman el
de coincidencia de características profundas pueden adaptarse dinámicamente a
espectrograma de una señal de entrada distorsionada para que coincida
la tarea en función de los mapas de características de los discriminadores,
con el de una señal limpia objetivo al estimar un mapeo no lineal directo
estabilizar el entrenamiento GAN y, por lo tanto, mejorar la capacidad de
desde la entrada al objetivo [10, 11], o una máscara sobre la entrada [12,
discriminación. En resumen, nuestras principales contribuciones son: (1) un
13] . Requieren ISTFT u otros métodos para obtener la forma de onda de
método genérico de mejora del habla de alta fidelidad para el ruido, la
las predicciones,
reverberación y la distorsión que se generaliza a los nuevos hablantes, nuevos
Los avances recientes en las arquitecturas de redes neuronales permiten el
contenidos del habla y nuevos entornos; (2) un procedimiento de entrenamiento
mapeo directamente sobre la forma de onda, a pesar de los desafíos duales de
contradictorio que utiliza discriminadores de múltiples escalas y múltiples
alta resolución junto con una estructura temporal densa en muchas escalas.
dominios junto con sus pérdidas de coincidencia de características profundas en
WaveNet [14] y sus variantes de alimentación hacia adelante para la mejora del
aplicación a la mejora del habla; y (3) evaluaciones objetivas y subjetivas tanto en
habla [15, 16] aprovechan la convolución dilatada para habilitar un campo
la tarea de mejora del habla genérica como en la tarea de eliminación de ruido
receptivo grande mientras retienen una cantidad relativamente pequeña de
de referencia, lo que demuestra que nuestro enfoque supera significativamente
parámetros. Wave-U-Net [17] se adapta
los métodos de referencia de última generación.
Figura 1:GAN Arquitectura. El Generador G incluye un WaveNet feed-forward para la mejora del habla, seguido de un Postnet convolucional para la
limpieza. Los discriminadores evalúan la forma de onda resultante (DW,a múltiples resoluciones) y espectrograma de mel (DS).
2. Método
Nuestro método se basa en nuestros trabajos anteriores de
mejora del habla motivada por la percepción [16]. Aunque el
trabajo anterior tiene como objetivo la eliminación de ruido y la
desreverberación conjunta en un solo entorno de grabación,
nuestro objetivo es generalizar en todos los entornos. La
arquitectura general se muestra en la Figura 1. Nuestra red de
mejora (Generador G) es una WaveNet de avance [15] que ha
demostrado tener éxito en la eliminación de ruido y la
desreverberación [28, 16]. Sus circunvoluciones dilatadas no
casuales con tasas de dilatación que aumentan
exponencialmente permiten un gran campo receptivo adecuado
para el ruido aditivo típico y la reverberación de cola larga.
También incluimos la pérdida de espectrograma logarítmico y la
pérdida de muestra L1 como componentes básicos de la función
de pérdida, ya que ayudan a acelerar el entrenamiento y sirven
como una métrica de percepción simple. En la práctica,
128. El más grande da más resolución de frecuencia, mientras que el más
pequeño da más resolución temporal. Nuestros experimentos en este
documento operan en 16 kHz para facilitar la comparación con métodos
anteriores, ya que se desarrollan a la misma frecuencia de muestreo. Sin
embargo, el verdadero audio de alta fidelidad exige una frecuencia de muestreo
más alta, para lo cual analizamos las estrategias en la Sección 4. Las secciones
posteriores analizarán las modificaciones a esta arquitectura que aportan una
mejora significativa en la fidelidad.
2.1. posnet
Se ha encontrado que el uso de postnets es efectivo para mejorar la
calidad de la síntesis [29]. Adjuntamos a la red principal una pila simple de
12 capas convolucionales 1D, cada una con 128 canales y una longitud de
kernel de 32.Tanhse utiliza como función de activación entre capas
convolucionales. L1 y las pérdidas de espectrograma se aplican tanto a la
salida de la red principal (antes de la red posterior) como a la posterior a la
red posterior. Esto permite que la red principal se concentre en generar
una versión gruesa del habla limpia mientras que la red posterior elimina
los artefactos para mejorar la fidelidad.
2.2.1. Discriminadores multidominio multiescala
El diseño de los discriminadores está inspirado en MelGAN [21], que utiliza
la discriminación multiescala en la forma de onda en la síntesis de voz. De
manera similar, utilizamos tres discriminadores de forma de onda, que
funcionan respectivamente con versiones muestreadas de forma de onda
de 16kHz, 8kHz y 4kHz, para discriminar en diferentes rangos de
frecuencia. Los discriminadores de forma de onda tienen la misma
arquitectura de red pero no comparten los pesos. Cada red se compone
de una convolución 1D, cuatro bloques de convolución estriados, dos
convoluciones 1D adicionales y una agrupación promedio global para
generar una puntuación de valor real. Leaky Relu se utiliza entre las capas
para la no linealidad. La convolución agrupada se utiliza en lugar de la
convolución tradicional para reducir el número de parámetros
entrenables. Descubrimos que los discriminadores de forma de onda
ayudan a reducir el ruido y el artefacto de filtrado de peine,
También aplicamos un discriminador en el espectrograma de mel,
para diferenciar el habla generada del habla real. La pérdida del
espectrograma L2 a menudo causa efectos de suavizado excesivo que
conducen a una mayor aperiodicidad en los sonidos sonoros y un efecto
fantasma debido a la ambigüedad y la falta de coincidencia entre el F0 y
los parciales. El discriminador de espectrograma agudiza el
espectrograma correspondiente del habla predicha. También es más fácil
identificar residuos de reverberación de largo alcance en el dominio de
tiempo-frecuencia que en el dominio de tiempo. La red consta de cuatro
pilas de capa de convolución 2D, normalización por lotes y unidad lineal
cerrada (GLU), similar a StarGAN-VC [30]
Tener discriminadores de dos dominios diferentes estabiliza el
entrenamiento y equilibra la ponderación de diferentes factores de
cualidades perceptivas, de modo que no se aborde en exceso ningún tipo
de ruido o artefacto. Para todos nuestros discriminadores, usamos la
versión bisagra de la pérdida adversarial [31] para un entrenamiento más
eficiente. Para un discriminador específicoDk, su derrota adversarial en
el generadorLAvanzado
GRAMOy su pérdida discriminadoraLDkson los siguientes:
LAvanzado
GRAMO(x,
x′;Dk) = máx[1− Dk(GRAMO(X)),0]
LDk(x, x′) = máx[1 +Dk(GRAMO(X)),0]
+ máx[1− Dk(X′),0]
(1)
(2)
2.2. entrenamiento adversario
donde (x, x') es el par de entradas de audioXy objetivo de audioX′.
El entrenamiento adversario adicional ayuda a exponer ruidos sutiles y
confrontación funciona mejor junto con la postnet que sin ella. Nuestra
artefactos que no son capturados por funciones de pérdida simples. Empleamos
intuición es que es más fácil para los discriminadores controlar la red
discriminadores tanto de espectrograma como de forma de onda para cubrir
posterior que la red principal altamente no lineal para remodelar la señal.
diferentes dominios y resoluciones. El generador es penalizado con las pérdidas
Si bien ambos mejoraron con el entrenamiento adversario, se pueden
del adversario, así como con las pérdidas de coincidencia de características
observar diferencias de calidad perceptibles para los resultados antes y
profundas calculadas en los mapas de características de los discriminadores.
después de la red posterior.
En nuestros experimentos, descubrimos que el entrenamiento de
tamaños de 1, 4, 4, 4, 4, 1, 1; tamaños de canal de 16, 64, 256, 1024, 1024,
2.2.2. Pérdida profunda de coincidencia de características
Tomada de Computer Vision [32], la idea de pérdida profunda de funciones se ha
aplicado a la eliminación de ruido del habla [27], que utiliza un espacio de
alimentación hacia adelante para pasos de 500K con una tasa de aprendizaje de
entornos y etiquetado de audio doméstico. MelGAN [21] comparte una idea
similar, calculando la pérdida de coincidencia en los mapas de características
profundas de las capas intermedias en el discriminador durante el
entrenamiento. Lo aplicamos a la mejora del habla para permitir la actualización
dinámica de la pérdida de coincidencia de características. Dado que el
discriminador está en competencia dinámica con el generador, su pérdida de
coincidencia de características profundas se mantiene en la parte superior para
detectar diferencias notables, lo que mejora el poder de la discriminación
variable. La pérdida de coincidencia de características profundas también evita
que el generador se colapse, un escenario de falla común de las GAN [33], al
obligar al generador a que coincida con el contenido de referencia para que no
pueda hacer trampa al producir ejemplos monótonos. Además, anima al
discriminador a aprender un espacio de características continuas en lugar de
memorizar las muestras reales, evitando así el sobreajuste.
Para un discriminador específicoDk, formulamos su pérdida de coincidencia de
características profundas en el generador de la siguiente manera:
LFM
GRAMO(x, x′;Dk) =
i=1
nortei
||Dk(i)(GRAMO(X))− D(ik) (X′)||1
circunvoluciones agrupadas.
El entrenamiento ocurre en tres etapas. Primero, entrenamos WaveNet de
funciones fijo aprendido del entrenamiento previo en tareas de detección de
∑Tk 1
1024, 1; y tamaños de grupo de 1, 4, 16, 64, 256, 1, 1 para sus
0.001, usando pérdida L1 y pérdida de espectrograma. Esto es para asegurarse
de que la red principal capte la estructura de forma de onda del habla. Luego
entrenamos junto con la postnet y el aumento de datos para 500K pasos, con
una tasa de aprendizaje de 0.0001. Finalmente, entrenamos el generador a una
tasa de aprendizaje de 0,00001 con los cuatro discriminadores inicializados
aleatoriamente a una tasa de aprendizaje de 0,001 para pasos de 50 000,
utilizando pérdidas adversas y pérdidas de coincidencia de características
profundas. Actualizamos los discriminadores dos veces por cada paso del
generador con optimizadores Adam. Se utiliza un tamaño de lote de 6 en una
GPU Tesla V100, con cada entrada de 32000 muestras. Las muestras de audio de
los experimentos están disponibles en el sitio web de nuestro proyecto:
https://pixl.cs.princeton.edu/pubs/Su_2020_HiFi/
3.1. Mejora del habla conjunta
En un experimento conjunto de mejora del habla para la conversión de una grabación
(3)
del mundo real a una grabación limpia con calidad de estudio, nuestro
El conjunto de entrenamiento se construye a través de la simulación de
datos. Utilizamos las grabaciones de voz con calidad de estudio del
dóndeTkes el número de capas enDkexcluyendo la salida
conjunto de datos limpio [36] del dispositivo y el habla producida (DAPS),
capa, ynorteies el número de unidades en eli-ésima capaD(i) k.
las combinamos con las 270 respuestas de impulso del conjunto de datos
una combinación de pérdidas L1 en formas de onda (tanto antes como
ruido extraído del desafío REVERB base de datos [4] y la base de datos ACE
Para concluir, la función de pérdida construida en la red de mejora es
después de la red posterior), pérdidas L2 en espectrogramas de registro
(tanto antes como después de la postnet), pérdidas adversariasLAvanzado GRAMOy
pérdidas de coincidencia de características profundasGRAMO
LFM
de
los cuatro discriminadores.
Básicamente, esto puede verse como una función de pérdida de percepción
de la encuesta de respuesta al impulso del MIT [37] y luego agregamos el
Challenge [38]. En total, los datos incluyen dos géneros.×diez hablantes
por género×diez minutos de guion×270 entornos antes del aumento.
Disponemos de un ponente para cada género, dos minutos de guión y 70
ambientes para evaluación. El conjunto de datos DAPS también
parcialmente aprendida que evalúa varios aspectos de la calidad del habla.
proporciona grabaciones del mismo conjunto de voz con calidad de
2.3. Simulación y aumento de datos
las interacciones de los factores acústicos en el mundo real. Esto nos
El entrenamiento de nuestro modelo se basa en pares paralelos de grabaciones
generaliza a entornos reales invisibles.
ruidosas y grabaciones limpias, que en realidad son costosas de obtener. En su
lugar, creamos datos de entrenamiento para varios entornos a través de la
simulación de datos mediante la convolución de grabaciones con calidad de
estudio con respuestas de impulso de sala medidas y la adición de ruido.
Para generalizar a nuevos hablantes, nuevo contenido de voz y
nuevos entornos, realizamos un gran aumento de datos sobre la marcha
[34]. La amplitud y la velocidad del habla se escalan aleatoriamente para
agregar variación en los hablantes. El ruido extraído de una colección de
muestras se pasa a través de un filtro multibanda aleatorio y se agrega
con una SNR aleatoria entre 10 dB y 30 dB. La cantidad de reverberación
se aumenta ajustando las propiedades DRR y RT60 de las respuestas de
impulso siguiendo el procedimiento propuesto por Bryan [35]. También
aplicamos filtros multibanda aleatorios a las respuestas de impulso para la
distorsión de ecualización.
3. Experimentos
estudio regrabadas en doce ambientes de sala diferentes, capturando así
permite también probar qué tan bien nuestro modelo entrenado se
Realizamos un estudio de ablación agregando un componente a la
vez. Los componentes básicos de nuestro método incluyen: feedforward
WaveNet (Base),uso de la postnet (posnet),uso del discriminador de
espectrograma (SpecGAN),y el uso de los discriminadores de forma de
onda (WaveGAN).También comparamos con seis métodos de última
generación en reducción de ruido y desreverberación: WPE conjunto [7] y
Wiener Filtering [2] (W+W),Pérdida de características profundas para
eliminación de ruido [27] (FL profunda),Atención Wave-U-Net [19] (Wave-UNet),enmascaramiento espectral con LSTM bidireccional [13] (BLSTM),y
MétricaGAN [22].
3.1.1. Evaluaciones objetivas
La Tabla 1 informa evaluaciones objetivas tanto en el conjunto de prueba
sintético como en el conjunto de datos DAPS: evaluación perceptual de la
calidad del habla (PESQ), inteligibilidad objetiva a corto plazo (STOI),
relación de energía de modulación del habla a la reverberación (SRMR) y
A través de experimentos, nuestra red generadora de mejor rendimiento
frecuencia ponderada. SNR segmental (FW-SSNR), que son métricas de uso
es una WaveNet de alimentación directa de 20 capas con dos pilas de
común en tareas de eliminación de ruido y de reverberación, por ejemplo,
circunvoluciones dilatadas, cada una con un tamaño de filtro de 3 y tasas
el Desafío REVERB de 2014 [4].
de dilatación de 1 a 512. El tamaño del canal es 128 en toda la red. El
Descubrimos que la red Deep Feature Loss entrenada en nuestro conjunto
discriminador de espectrograma sigue la misma configuración que en
de datos produce peores resultados que el modelo preentrenado,
StarGAN-VC [30]: tamaños de kernel de (3, 9), (3, 8), (3, 8), (3, 6); tamaños
probablemente porque su red de pérdida atiende al ruido ambiental aditivo pero
de zancada de (1, 2), (1, 2), (1, 2), (1, 2); y tamaños de canal de 32 a través
no a las diferencias de reverberación. Por lo tanto, ejecutamos el modelo de
de las capas. La entrada se calcula como el espectrograma log mel de 80
pérdida de características profundas preentrenado para comparar.
coeficientes con mels que van desde 20 Hz a 8000 Hz. Los discriminadores
Nuestro método HiFi-GAN consigue el mejor PESQ de todos en ambos
de forma de onda siguen la misma configuración que en MelGAN [21]:
casos. Sin embargo, el uso del discriminador de forma de onda por sí solo puede
tamaños de kernel de 15, 41, 41, 41, 41, 5, 3; paso
degradar las puntuaciones. Planteamos la hipótesis de que tener
Tabla 1:Medidas objetivas sobre conjuntos de datos sintéticos y DAPS.
Método
PESC
STOI
SRMR
FW-SSNR
Datos sintéticos
4,64 1,00
1,92 0,91
7.82
5.64
35.00
Ruidoso
WPE+Salchicha [7, 2]
2,20 0,90
2.01
2.01
2.12
2.59
0.88
0,94
0.93
0,92
6.81
6.39
7.59
7.01
7.28
4.53
7.02
8.12
9.57
6.23
2.50
2.60
2.69
2.56
2.78
0,95
0,95
0,94
0,95
0,94
7.16
7.48
7.83
7.62
7.47
11.52
11.68
10.24
10.95
10.52
Limpio
Florida profunda [27]
Wave-U-Red [19]
BLSTM [13]
MétricaGAN [22]
Base
+ Postnet
+ Postnet +SpecGAN
+ Postnet +WaveGAN
HiFi-GAN (Todos)
4.63
Figura 2:Puntuaciones de MOS (arriba) y porcentaje de preferencia en HiFi-
GAN en un estudio por pares (abajo) en el conjunto de datos DAPS.
recibió 900 calificaciones por voz. Nuestro método es fuertemente
Conjunto de datos DAPS
preferido sobre otras líneas de base (más del 90 % de las veces), y HiFi-
4,64 1,00
1,41 0,87
7.82
4.79
35.00
3.04
GAN muestra una ventaja evidente sobre SpecGAN, que obtiene casi la
7.84
6.96
6.58
6.65
7.38
3.61
5.92
4.70
6.61
4.73
3.2. Tarea de eliminación de ruido
MétricaGAN [22]
1,84 0,87
1,63 0,85
1,47 0,86
1,63 0,88
1,89 0,88
Base
1,76 0,89
6.80
7.22
7.46
7.48
7.67
6.38
7.44
7.44
6.52
7.62
Limpio
Ruidoso
WPE+Salchicha [7, 2]
Florida profunda [27]
Wave-U-Red [19]
BLSTM [13]
+ Postnet
+ Postnet +SpecGAN
+ Postnet +WaveGAN
HiFi-GAN (Todos)
1.93
0.89
2.00
0.89
1,97 0,87
1,86 0,88
misma puntuación en la prueba MOS.
Para demostrar aún más la eficacia de HiFi-GAN, llevamos a cabo un
experimento de referencia de mejora del habla (eliminación de ruido), utilizando
un conjunto de datos estándar [40] que consiste en pares de grabaciones
limpias y ruidosas (28 altavoces para entrenamiento y 2 altavoces para prueba).
Las medidas objetivas de nuestro método en comparación con otros métodos de
última generación se informan en la Tabla 2.
HiFi-GAN supera a todos los demás métodos, y Postnet solo es superado
el discriminador de espectrograma junto con los discriminadores de forma de
onda estabiliza el entrenamiento adversario, lo que conduce a un mejor punto
de convergencia para HiFi-GAN. También observamos que los métodos basados
en formas de onda generalmente no funcionan tan bien como los espectrales
cuando hay reverberación. Esto muestra la importancia de incluir
representaciones de tiempo-frecuencia en el aprendizaje.
No existe una clasificación consistente en las cuatro métricas objetivas, lo
que sugiere que ninguna medida individual captura adecuadamente el sentido
subjetivo de la calidad general, también observado en trabajos anteriores [39].
Por lo tanto, realizamos evaluaciones subjetivas para el juicio humano de las
cualidades perceptivas generales.
por MetricGAN. Esto muestra que nuestro enfoque puede generalizarse a
diferentes conjuntos de datos y tareas de mejora del habla. Tenga en cuenta que
las grabaciones limpias del conjunto de datos VCTK todavía contienen una
pequeña cantidad de ruido de fondo y, por lo tanto, nuestros métodos obtienen
una puntuación más baja en la medida de distorsión de fondo (CBAK).
Tabla 2:Medidas objetivas sobre el VCTK Noisy Dataset
PESC
CSIG
CBAK
COVL
Wave-U-Red [19]
MétricaGAN [22]
1.97
2.22
2.16
2.62
2.86
3.35
3.23
3.48
3.62
3.86
3.91
3.99
2.44
2.68
2.94
3.23
3.33
3.35
3.18
2.63
2.67
2.80
2.98
3.22
3.27
3.42
posnet
HiFi-GAN
2.84
2.94
4.18
4.07
2.55
3.07
3.51
3.49
Método
Ruidoso
salchicha [2]
SEGAN [23]
WaveNet [15]
Florida profunda [27]
3.1.2. Evaluaciones subjetivas
Usamos Amazon Mechanical Turk (AMT) para el estudio auditivo. En una prueba
de puntuación de opinión media (MOS), se le pide a un sujeto que califique la
calidad del sonido de un fragmento de audio en una escala del 1 al 5, con 1 =
Malo, 5=Excelente. Proporcionamos un audio con calidad de estudio como
referencia para alta calidad y el audio de entrada ruidoso como ancla baja. En
4. Discusión y Trabajo Futuro
total, recopilamos alrededor de 1000 HIT válidos por voz, con un total de 14 000
En este documento, presentamos HiFi-GAN, un método de aprendizaje profundo de
calificaciones por voz. Como se muestra en la Figura 2, HiFi-GAN obtiene la
extremo a extremo para mejorar las grabaciones de voz a calidad de estudio. Utiliza un
puntuación más alta y todas nuestras variantes se encuentran entre las mejores.
WaveNet feed-forward junto con entrenamiento contradictorio de múltiples escalas
Si bien MetricGAN parece competitivo en la medición objetiva, nuestros métodos
tanto en el dominio del tiempo como en el dominio del tiempo-frecuencia. Las pérdidas
lo superan significativamente con un valor p<10−4. Dado que las calificaciones de
de coincidencia dinámica de las características profundas de los discriminadores ayudan
MOS son relativamente cercanas para algunos métodos, también realizamos
a lograr mejores cualidades perceptivas. Las evaluaciones muestran que el método
una prueba de preferencia en los pares de métodos seleccionados para revelar
propuesto supera a todas las demás líneas de base de última generación en tareas de
la consistencia de la calidad de nuestro HiFi-GAN de mayor rendimiento frente a
eliminación de ruido y desreverberación.
los competidores. En este estudio, a un sujeto se le presentan dos expresiones
Tenga en cuenta que nuestros experimentos se realizan con una frecuencia
producidas por dos métodos y se le pide que elija cuál suena mejor dada una
de muestreo de 16 kHz, pero la alta fidelidad real debe apuntar a 44 kHz. Esto se
grabación limpia como referencia. Una vez que se recopilan todas las
puede lograr volviendo a entrenar las redes en la frecuencia de muestreo
respuestas, asignamos el método preferido a cada expresión en función de la
deseada, que sin embargo es computacionalmente costosa. Alternativamente,
votación por mayoría para reducir la alta variación en las calificaciones. Cada par
un posible trabajo futuro es conectar una red de extensión de banda [41] para
de métodos
postnet para aumentar la muestra de 16 kHz a 44 kHz.
5. Referencias
[1] Y. Ephraim y D. Malah, "Mejora del habla usando un estimador de
amplitud espectral de tiempo corto de error cuadrático medio
mínimo"Transacciones IEEE sobre acústica, voz y procesamiento de
señales, vol. 32, núm. 6, págs. 1109–1121, 1984.
[2] P. Escarlataet al., “Mejora del habla basada en una estimación a priori
de señal a ruido”, enICASSP 1996, vol. 2. IEEE, págs. 629–632.
[3] PA Naylor y ND Gaubitch,Dereverberación del habla.
Springer Science & Business Media, 2010.
[4] K. Kinoshita, M. Delcroix, T. Yoshioka, T. Nakatani, A. Sehr,
W. Kellermann y R. Maas, "El desafío de la reverberación: un marco de
evaluación común para la desreverberación y el reconocimiento del habla
reverberante", enWASPAA 2013. IEEE, págs. 1–4.
[21] K. Kumar, R. Kumar, T. de Boissiere, L. Gestin, WZ Teoh,
J. Sotelo, A. de Brébisson, Y. Bengio y AC Courville, "Melgan:
Generative adversarial networks for conditional waveform lysis", en
Avances en sistemas de procesamiento de información neuronal,
2019, págs. 14 881–14 892.
[22] SO-O. Fu, C.-F. Liao, Y. Tsao y S.-D. Lin, "Metricgan: Optimización de puntajes
métricos de caja negra basada en redes generativas antagónicas para la
mejora del habla", enConferencia Internacional sobre Aprendizaje
Automático, 2019, págs. 2031–2041.
[23] S. Pascual, A. Bonafonte, and J. Serrà, “Segan: Red adversarial
generativa de mejora del habla,”proc. Interdiscurso 2017, págs.
3642–3646.
[24] H. Phan, IV McLoughlin, L. Pham, OY Chen, P. Koch,
M. De Vos y A. Mertins, "Mejora de gans para mejorar el habla"
preimpresión de arXiv arXiv:2001.05532, 2020.
[5] FG Germain, GJ Mysore y T. Fujioka, "Ecualización de la ecualización de
grabaciones de voz en entornos del mundo real", enICASSP 2016.
IEEE, págs. 609–613.
[25] S. Pascual, J. Serrà y A. Bonafonte, “Hacia la mejora generalizada
del habla con redes generativas antagónicas”,proc.
Interdiscurso 2019, págs. 1791–1795.
[6] C. Donahue, B. Li y R. Prabhavalkar, "Explorando la mejora del habla
con redes antagónicas generativas para un reconocimiento de voz
sólido", enICASSP 2018. IEEE, págs. 5024–5028.
[26] SO-O. Fu, C.-F. Liao y Y. Tsao, "Aprendizaje con función de pérdida
aprendida: mejora del habla con red de calidad para mejorar la evaluación
perceptual de la calidad del habla".Letras de procesamiento de señales
IEEE, 2019.
[7] T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi y B.-H. Juang,
"Desreverberación del habla basada en la predicción lineal retardada
normalizada por varianza"Transacciones IEEE sobre procesamiento de
audio, voz y lenguaje, vol. 18, núm. 7, págs. 1717–1731, 2010.
[8] Z. Duan, GJ Mysore y P. Smaragdis, "Mejora del habla mediante
descomposición de espectrograma no negativo en línea en entornos
de ruido no estacionario", enDecimotercera Conferencia Anual de la
Asociación Internacional de Comunicación del Habla, 2012.
[9] H. Kagami, H. Kameoka y M. Yukawa, "Separación conjunta y
desreverberación de mezclas reverberantes con factorización de
matriz no negativa multicanal determinada", enICASSP 2018. IEEE,
págs. 31–35.
[10] K. Han, Y. Wang, D. Wang, WS Woods, I. Merks y T. Zhang, "Aprendizaje de
mapeo espectral para la desreverberación y eliminación de ruido del
habla"IEEE/ACM TASLP, vol. 23, núm. 6, págs. 982–992, 2015.
[11] Y. Xu, J. Du, L.-R. Dai y C.-H. Lee, "Un enfoque de regresión para
mejorar el habla basado en redes neuronales profundas"IEEE/ACM
TASLP, vol. 23, núm. 1, págs. 7 a 19, 2015.
[12] DS Williamson y D. Wang, “Speech dereverberation and
denoising using complex ratio masks”, enICASSP 2017. IEEE,
págs. 5590–5594.
[13] W. Mack, S. Chakrabarty, F.-R. Stöter, S. Braun, B. Edler y
E. Habets, "Desreverberación de un solo canal mediante
optimización mmse directa y redes lstm bidireccionales",proc.
Interdiscurso 2018, págs. 1314–1318.
[14] A. Van Den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals,
A. Graves, N. Kalchbrenner, AW Senior y K. Kavukcuoglu, "Wavenet:
un modelo generativo para audio sin procesar". enSSO, 2016, pág.
125.
[27] FG Germain, Q. Chen y V. Koltun, "Speech denoising with deep
feature loss"proc. Interdiscurso 2019, págs. 2723–2727.
[28] K. Qian, Y. Zhang, S. Chang, X. Yang, D. Florêncio y
M. Hasegawa-Johnson, "Mejora del habla mediante la red de ondas
bayesiana". enInterdiscurso 2017, págs. 2013–2017.
[29] J. Shen, R. Pang, RJ Weiss, M. Schuster, N. Jaitly, Z. Yang,
Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryanet al., "Síntesis natural de
tts al condicionar la red de ondas en las predicciones del
espectrograma mel", enICASSP 2018. IEEE, págs. 4779–4783.
[30] H. Kameoka, T. Kaneko, K. Tanaka y N. Hojo, "Stargan-vc: conversión de voz
de muchos a muchos no paralelos con redes antagónicas generativas de
estrellas"preimpresión de arXiv arXiv:1806.02169, 2018.
[31] JH Lim y JC Ye, “ganancia geométrica”,preimpresión de arXiv
arXiv:1705.02894, 2017.
[32] LA Gatys, AS Ecker y M. Bethge, “Un algoritmo neural del estilo
artístico”,preimpresión de arXiv arXiv:1508.06576, 2015.
[33] I. Goodfellow, “Tutorial de Nips 2016: Redes antagónicas generativas”
preimpresión de arXiv arXiv:1701.00160, 2016.
[34] J. Su, Z. Jin y A. Finkelstein, "Coincidencia acústica mediante la incorporación
de respuestas de impulso", enICASSP 2020. IEEE, págs. 426–430.
[35] NJ Bryan, "Aumento de datos y redes neuronales convolucionales profundas
para la estimación de parámetros acústicos de salas ciegas"preimpresión
de arXiv arXiv:1909.03642, 2019.
[36] GJ Mysore, “¿Podemos transformar automáticamente la voz grabada en
dispositivos de consumo comunes en entornos del mundo real en voz de
calidad de producción profesional? Un conjunto de datos, conocimientos y
desafíos”,Letras de procesamiento de señales IEEE, vol. 22, núm. 8, págs.
1006–1010, 2015.
[15] D. Rethage, J. Pons y X. Serra, “A wavenet for speech denoising”,
enICASSP 2018. IEEE, págs. 5069–5073.
[37] J. Traer y JH McDermott, "Las estadísticas de la reverberación natural
permiten la separación perceptiva del sonido y el espacio".procedimientos
de la Academia Nacional de Ciencias, vol. 113, núm. 48, págs. E7856–
E7865, 2016.
[16] J. Su, A. Finkelstein y Z. Jin, "Mejora del habla específica del
entorno motivada por la percepción", enICASSP 2019, págs.
7015–7019.
[38] J. Eaton, ND Gabitch, AH Moore y PA Naylor, "Estimación de los
parámetros acústicos de la sala: el desafío del as"IEEE/ACM TASLP,
vol. 24, núm. 10, págs. 1681–1693, 2016.
[17] D. Stoller, S. Ewert y S. Dixon, "Wave-u-net: una red neuronal multiescala
para la separación de fuentes de audio de extremo a extremo"
preimpresión de arXiv arXiv:1806.03185, 2018.
[18] C. Macartney y T. Weyde, "Mejora del habla mejorada con waveu-net"preimpresión de arXiv arXiv:1811.11307, 2018.
[19] R. Giri, U. Isik y A. Krishnaswamy, "Atención wave-u-net para
mejorar el habla", enWASPAA 2019. IEEE, págs. 249–253.
[20] M. Binkowski, J. Donahue, S. Dieleman, A. Clark, E. Elsen,
N. Casagrande, LC Cobo y K. Simonyan, "Síntesis de voz de alta
fidelidad con redes antagónicas"preimpresión de arXiv
arXiv:1909.11646, 2019.
[39] K. Kinoshita, M. Delcroix, S. Gannot, EA Habets, R. HaebUmbach, W. Kellermann, V. Leutnant, R. Maas, T. Nakatani,
B.Rajet al., "Un resumen del desafío de la reverberación: desafíos actuales
y restantes en la investigación del procesamiento del habla reverberante".
Revista EURASIP sobre avances en procesamiento de señales, vol. 2016,
núm. 1, pág. 7, 2016.
[40] C. Valentini-Botinhao, X. Wang, S. Takaki y J. Yamagishi, "Investigación
de métodos de mejora del habla basados en rnn para texto a voz
resistente al ruido". enSSO, 2016, págs. 146–152.
[41] B. Feng, Z. Jin, J. Su y A. Finkelstein, "Aprendizaje de la expansión del ancho de
banda mediante la pérdida motivada por la percepción", enICASSP 2019. IEEE,
págs. 606–610.
Descargar