Los desarrolladores de MIT crearon una red neuronal, que de forma independiente encuentra un instrumento musical en un video y determina cómo suena. Si hay varios instrumentos en el video, el programa permite al usuario elegir cuál quiere escuchar haciendo clic en él, según el trabajo que se presentará en la conferencia de septiembre European Conference on Computer Vision (ECCV), según María Cervantes, N+1.
Normalmente, para que una red neuronal aprenda a reconocer objetos en una imagen o en una pista de sonido, se requiere un gran conjunto de datos etiquetados. Pero este etiquetado debe hacerse manualmente, lo que lleva bastante tiempo. Por ello, en los últimos años los investigadores utilizan cada vez más métodos alternativos para el entrenamiento de programas, que permiten que el algoritmo obtenga el conocimiento necesario de forma independiente.
Los autores del nuevo trabajo bajo la dirección de Hang Zhao, crearon una red neuronal llamada PixelPlayer. Consta de tres componentes: gráfico, audio y sintetización. La primera red neuronal analiza los elementos gráficos del video, mientras que la segunda analiza el espectrograma de la pista de audio. Luego, el sintetizador combina ciertas áreas en los cuadros (conjuntos de píxeles) con ciertos sonidos para determinar cómo suena un instrumento en particular.
Diagrama de arquitectura del sistema. Una red procesa datos gráficos, otra audio, y la tercera los compara.
Hang Zhao et al / ArXiv, 2018
Para entrenar el sistema de Inteligencia Artificial, los programadores usaron 714 videos de una duración de 60 horas. En total, se presentaron 11 categorías de instrumentos: acordeón, guitarra acústica, cello, clarinete, erhu (violín chino), flauta, saxofón, trompeta, tuba, violín y xilófono.
La característica principal del algoritmo es que utiliza un entrenamiento en profundidad «autocontrolado», es decir, no requiere datos etiquetados que indiquen cómo se ve o suena un instrumento. Toda la información necesaria la extrae de forma independiente, por lo que los investigadores no saben exactamente qué características particulares de los datos el sistema considera importantes.
En el video se observa cómo el usuario solo debe dar click a la imagen del instrumento para que el programa suba el volumen. Además, PixelPlayer permite ajustar el volumen de los instrumentos y editar la pista de audio.
Recientemente, investigadores de Facebook Research desarrollaron un método para convertir registros de música en grabaciones con otros instrumentos, estilos y géneros. El método se basa en el aprendizaje automático y permite entrenar una red neuronal sin comparar registros con otros estilos, instrumentos o géneros.