Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
Los datos acústicos se encuentran en muchas áreas de la vida y contienen un sinnúmero de información de alto valor para diferentes aplicaciones en la ciencia. Una vez los datos acústicos se digitalizan con dispositivos capaces de registrar la gama audible humana y ultrasónica, este potencial puede s...
- Autores:
-
Carmona Aguiar, Sebastián
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2023
- Institución:
- Instituto Tecnológico Metropolitano
- Repositorio:
- Repositorio ITM
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.itm.edu.co:20.500.12622/6288
- Acceso en línea:
- http://hdl.handle.net/20.500.12622/6288
- Palabra clave:
- Autoencoders
Generación de información sintética
Incrustación de vecinos estocásticos distribuidos en t (t-SNE)
Optimización de hiperparámetros (Optuna)
Red pre-entrenada VGGish
Sonidos ambientales
Autoencoders
Environmental sounds
Hyperparameter optimization (Optuna)
Synthetic information generation
t-Distributed stochastic neighbor embedding (t-SNE)
VGGish pre-trained network
- Rights
- License
- http://creativecommons.org/licenses/by-nc-nd/4.0/
Summary: | Los datos acústicos se encuentran en muchas áreas de la vida y contienen un sinnúmero de información de alto valor para diferentes aplicaciones en la ciencia. Una vez los datos acústicos se digitalizan con dispositivos capaces de registrar la gama audible humana y ultrasónica, este potencial puede ser explorado y aprovechado, más aún con el poder que nos ofrece la inteligencia artificial para el análisis de datos e identificación de patrones. A pesar de todo ello, la grabación o recopilación de estos datos acústicos esconde muchos desafíos, ya sean por el esfuerzo logístico, limitaciones técnicas o de medios, que en su mayoría dejan brechas temporales sin información, incluso se dan fallos del dispositivo o por la misma técnica de grabación, que muchas veces se da por fracciones tiempo. Considerando estas situaciones, exploramos en este trabajo la posibilidad de generar información acústica sintética que se encuentre dentro del dominio de estudio para cubrir estos espacios de información, a partir de la implementación de redes neuronales autoencoder variacional (VAE) y autoencoder variacional condicional (CVAE), junto con las técnicas de generación por interpolación o basadas en etiquetas de clase. Para alcanzar nuestro objetivo se realizan pruebas sobre un conjunto de datos experimental de imágenes (MNIST) para posteriormente trabajar, con un conjunto de datos reales basado en información acústica de sonidos ambientales (UrbanSound8K). Durante este proceso se ejecutan tareas de caracterización embebida con el modelo pre-entrenado VGGish, optimización de hiperparámetros con el apoyo de la API Optuna, visualización y comprobación de resultados sobre espacios latentes mediante técnicas de visualización en baja dimensionalidad t-SNE. Medios que permitieron alcanzar el propósito de este trabajo e identificando cómo las arquitecturas VAE y CVAE, basadas en redes neuronales autoencoder, son modelos efectivos para esta aplicación en la generación sintética de información acústica dentro del dominio de estudio |
---|