Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder

Los datos acústicos se encuentran en muchas áreas de la vida y contienen un sinnúmero de información de alto valor para diferentes aplicaciones en la ciencia. Una vez los datos acústicos se digitalizan con dispositivos capaces de registrar la gama audible humana y ultrasónica, este potencial puede s...

Full description

Autores:
Carmona Aguiar, Sebastián
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2023
Institución:
Instituto Tecnológico Metropolitano
Repositorio:
Repositorio ITM
Idioma:
spa
OAI Identifier:
oai:repositorio.itm.edu.co:20.500.12622/6288
Acceso en línea:
http://hdl.handle.net/20.500.12622/6288
Palabra clave:
Autoencoders
Generación de información sintética
Incrustación de vecinos estocásticos distribuidos en t (t-SNE)
Optimización de hiperparámetros (Optuna)
Red pre-entrenada VGGish
Sonidos ambientales
Autoencoders
Environmental sounds
Hyperparameter optimization (Optuna)
Synthetic information generation
t-Distributed stochastic neighbor embedding (t-SNE)
VGGish pre-trained network
Rights
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
id RepoITM2_a79c2a125f8449647fe682c9433a7ffe
oai_identifier_str oai:repositorio.itm.edu.co:20.500.12622/6288
network_acronym_str RepoITM2
network_name_str Repositorio ITM
repository_id_str
dc.title.spa.fl_str_mv Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
dc.title.translated.spa.fl_str_mv Synthetic Acoustic Information Generation Using Neural Networks Variational Autoencoder And Conditional Variational Autoencoder
title Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
spellingShingle Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
Autoencoders
Generación de información sintética
Incrustación de vecinos estocásticos distribuidos en t (t-SNE)
Optimización de hiperparámetros (Optuna)
Red pre-entrenada VGGish
Sonidos ambientales
Autoencoders
Environmental sounds
Hyperparameter optimization (Optuna)
Synthetic information generation
t-Distributed stochastic neighbor embedding (t-SNE)
VGGish pre-trained network
title_short Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
title_full Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
title_fullStr Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
title_full_unstemmed Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
title_sort Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
dc.creator.fl_str_mv Carmona Aguiar, Sebastián
dc.contributor.advisor.none.fl_str_mv Castro Ospina, Andrés Eduardo
Vega Escobar, Laura Stella
dc.contributor.author.none.fl_str_mv Carmona Aguiar, Sebastián
dc.contributor.email.spa.fl_str_mv sebastiancarmona230366@correo.itm.edu.co
dc.subject.spa.fl_str_mv Autoencoders
Generación de información sintética
Incrustación de vecinos estocásticos distribuidos en t (t-SNE)
Optimización de hiperparámetros (Optuna)
Red pre-entrenada VGGish
Sonidos ambientales
topic Autoencoders
Generación de información sintética
Incrustación de vecinos estocásticos distribuidos en t (t-SNE)
Optimización de hiperparámetros (Optuna)
Red pre-entrenada VGGish
Sonidos ambientales
Autoencoders
Environmental sounds
Hyperparameter optimization (Optuna)
Synthetic information generation
t-Distributed stochastic neighbor embedding (t-SNE)
VGGish pre-trained network
dc.subject.keywords.spa.fl_str_mv Autoencoders
Environmental sounds
Hyperparameter optimization (Optuna)
Synthetic information generation
t-Distributed stochastic neighbor embedding (t-SNE)
VGGish pre-trained network
description Los datos acústicos se encuentran en muchas áreas de la vida y contienen un sinnúmero de información de alto valor para diferentes aplicaciones en la ciencia. Una vez los datos acústicos se digitalizan con dispositivos capaces de registrar la gama audible humana y ultrasónica, este potencial puede ser explorado y aprovechado, más aún con el poder que nos ofrece la inteligencia artificial para el análisis de datos e identificación de patrones. A pesar de todo ello, la grabación o recopilación de estos datos acústicos esconde muchos desafíos, ya sean por el esfuerzo logístico, limitaciones técnicas o de medios, que en su mayoría dejan brechas temporales sin información, incluso se dan fallos del dispositivo o por la misma técnica de grabación, que muchas veces se da por fracciones tiempo. Considerando estas situaciones, exploramos en este trabajo la posibilidad de generar información acústica sintética que se encuentre dentro del dominio de estudio para cubrir estos espacios de información, a partir de la implementación de redes neuronales autoencoder variacional (VAE) y autoencoder variacional condicional (CVAE), junto con las técnicas de generación por interpolación o basadas en etiquetas de clase. Para alcanzar nuestro objetivo se realizan pruebas sobre un conjunto de datos experimental de imágenes (MNIST) para posteriormente trabajar, con un conjunto de datos reales basado en información acústica de sonidos ambientales (UrbanSound8K). Durante este proceso se ejecutan tareas de caracterización embebida con el modelo pre-entrenado VGGish, optimización de hiperparámetros con el apoyo de la API Optuna, visualización y comprobación de resultados sobre espacios latentes mediante técnicas de visualización en baja dimensionalidad t-SNE. Medios que permitieron alcanzar el propósito de este trabajo e identificando cómo las arquitecturas VAE y CVAE, basadas en redes neuronales autoencoder, son modelos efectivos para esta aplicación en la generación sintética de información acústica dentro del dominio de estudio
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2023-12-12T20:11:15Z
dc.date.available.none.fl_str_mv 2023-12-12T20:11:15Z
dc.date.issued.none.fl_str_mv 2023
dc.type.local.spa.fl_str_mv Trabajo de grado de pregrado
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12622/6288
dc.identifier.instname.spa.fl_str_mv instname:Instituto Tecnológico Metropolitano
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Instituto Tecnológico Metropolitano
dc.identifier.repourl.none.fl_str_mv repourl:https://repositorio.itm.edu.co/
url http://hdl.handle.net/20.500.12622/6288
identifier_str_mv instname:Instituto Tecnológico Metropolitano
reponame:Repositorio Institucional Instituto Tecnológico Metropolitano
repourl:https://repositorio.itm.edu.co/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.local.spa.fl_str_mv Acceso abierto
dc.rights.creativecommons.*.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
Acceso abierto
Attribution-NonCommercial-NoDerivatives 4.0 International
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingenierías
dc.publisher.program.spa.fl_str_mv Ingeniería de Sistemas
dc.publisher.grantor.spa.fl_str_mv Instituto Tecnológico Metropolitano
institution Instituto Tecnológico Metropolitano
bitstream.url.fl_str_mv https://dspace-itm.metabuscador.org/bitstreams/f7abff45-1fec-4821-b1e3-97126cb1d08d/download
https://dspace-itm.metabuscador.org/bitstreams/8865c5ca-c269-4add-aeb5-07e0d140e5ce/download
https://dspace-itm.metabuscador.org/bitstreams/38c37fa5-fd13-449a-8ecf-ff25ff7b5637/download
https://dspace-itm.metabuscador.org/bitstreams/63989895-a995-4f1f-bb44-a4057efdeebe/download
https://dspace-itm.metabuscador.org/bitstreams/68aa65b5-7d84-491e-859d-013011a3d998/download
bitstream.checksum.fl_str_mv 0142289f84f8f6114d61fff9f0295b96
0142289f84f8f6114d61fff9f0295b96
7734e4171dd7ba1c98e697a13b9e06eb
edb62d0370da937e29e31a437c102264
a5b5480f7cda4c69944a07c0833c9aed
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Instituto Tecnológico Metropolitano de Medellín
repository.mail.fl_str_mv bdigital@metabiblioteca.com
_version_ 1837096883012501505
spelling Castro Ospina, Andrés EduardoVega Escobar, Laura StellaCarmona Aguiar, Sebastiánsebastiancarmona230366@correo.itm.edu.co2023-12-12T20:11:15Z2023-12-12T20:11:15Z2023http://hdl.handle.net/20.500.12622/6288instname:Instituto Tecnológico Metropolitanoreponame:Repositorio Institucional Instituto Tecnológico Metropolitanorepourl:https://repositorio.itm.edu.co/Los datos acústicos se encuentran en muchas áreas de la vida y contienen un sinnúmero de información de alto valor para diferentes aplicaciones en la ciencia. Una vez los datos acústicos se digitalizan con dispositivos capaces de registrar la gama audible humana y ultrasónica, este potencial puede ser explorado y aprovechado, más aún con el poder que nos ofrece la inteligencia artificial para el análisis de datos e identificación de patrones. A pesar de todo ello, la grabación o recopilación de estos datos acústicos esconde muchos desafíos, ya sean por el esfuerzo logístico, limitaciones técnicas o de medios, que en su mayoría dejan brechas temporales sin información, incluso se dan fallos del dispositivo o por la misma técnica de grabación, que muchas veces se da por fracciones tiempo. Considerando estas situaciones, exploramos en este trabajo la posibilidad de generar información acústica sintética que se encuentre dentro del dominio de estudio para cubrir estos espacios de información, a partir de la implementación de redes neuronales autoencoder variacional (VAE) y autoencoder variacional condicional (CVAE), junto con las técnicas de generación por interpolación o basadas en etiquetas de clase. Para alcanzar nuestro objetivo se realizan pruebas sobre un conjunto de datos experimental de imágenes (MNIST) para posteriormente trabajar, con un conjunto de datos reales basado en información acústica de sonidos ambientales (UrbanSound8K). Durante este proceso se ejecutan tareas de caracterización embebida con el modelo pre-entrenado VGGish, optimización de hiperparámetros con el apoyo de la API Optuna, visualización y comprobación de resultados sobre espacios latentes mediante técnicas de visualización en baja dimensionalidad t-SNE. Medios que permitieron alcanzar el propósito de este trabajo e identificando cómo las arquitecturas VAE y CVAE, basadas en redes neuronales autoencoder, son modelos efectivos para esta aplicación en la generación sintética de información acústica dentro del dominio de estudioAcoustic data is found in many areas of life and contains a wealth of information of high value for different applications in science. Once acoustic data is digitized with devices capable of recording the human and ultrasonic audible range, and this potential can be explored and harnessed, even more so with the power of artificial intelligence for data analysis and pattern identification. Despite all this, the recording or collecting these acoustic data hides many challenges, either by the logistical effort, technical or media limitations, which mostly leave temporary gaps without information, even device failures, or by the same recording technique, which often occurs for fractions of time. Considering these situations, we explore in this work the possibility of generating synthetic acoustic information that is within the domain of study to cover these information gaps from the implementation of neural networks variational autoencoder (VAE) and conditional variational autoencoder (CVAE), along with generation techniques by interpolation or based on class labels. To achieve our goal, tests are performed on an experimental image dataset (MNIST) to later work with a real dataset based on acoustic information of environmental sounds (UrbanSound8K). During this process, embedded characterization tasks are executed with the pre-trained VGGish model, hyperparameter optimization with the support of the Optuna API, and visualization and verification of results on latent spaces using low dimensional t-SNE visualization techniques. Tools that allowed achieving the purpose of this work and identifying how VAE and CVAE architectures, based on autoencoder neural networks, are effective models for this application in the synthetic generation of acoustic information within the domain of studyIngeniero de Sistemaspregradoapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/4.0/Acceso abiertoAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://purl.org/coar/access_right/c_abf2AutoencodersGeneración de información sintéticaIncrustación de vecinos estocásticos distribuidos en t (t-SNE)Optimización de hiperparámetros (Optuna)Red pre-entrenada VGGishSonidos ambientalesAutoencodersEnvironmental soundsHyperparameter optimization (Optuna)Synthetic information generationt-Distributed stochastic neighbor embedding (t-SNE)VGGish pre-trained networkGeneración de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoderSynthetic Acoustic Information Generation Using Neural Networks Variational Autoencoder And Conditional Variational AutoencoderFacultad de IngenieríasIngeniería de SistemasInstituto Tecnológico MetropolitanoTrabajo de grado de pregradohttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/bachelorThesisPublicationORIGINALSebastianCarmonaAguiar_2023.pdfSebastianCarmonaAguiar_2023.pdfTrabajo de gradoapplication/pdf3135657https://dspace-itm.metabuscador.org/bitstreams/f7abff45-1fec-4821-b1e3-97126cb1d08d/download0142289f84f8f6114d61fff9f0295b96MD51trueAnonymousREADSebastianCarmonaAguiar_2023.pdfSebastianCarmonaAguiar_2023.pdfcarta de autorizaciónapplication/pdf3135657https://dspace-itm.metabuscador.org/bitstreams/8865c5ca-c269-4add-aeb5-07e0d140e5ce/download0142289f84f8f6114d61fff9f0295b96MD54falseAnonymousREAD2070-12-31LICENSElicense.txtlicense.txttext/plain; charset=utf-81406https://dspace-itm.metabuscador.org/bitstreams/38c37fa5-fd13-449a-8ecf-ff25ff7b5637/download7734e4171dd7ba1c98e697a13b9e06ebMD53falseAnonymousREADTHUMBNAILSebastianCarmonaAguiar_2023.pdf.jpgSebastianCarmonaAguiar_2023.pdf.jpgGenerated Thumbnailimage/jpeg5292https://dspace-itm.metabuscador.org/bitstreams/63989895-a995-4f1f-bb44-a4057efdeebe/downloadedb62d0370da937e29e31a437c102264MD55falseAnonymousREADTEXTSebastianCarmonaAguiar_2023.pdf.txtSebastianCarmonaAguiar_2023.pdf.txtExtracted texttext/plain102169https://dspace-itm.metabuscador.org/bitstreams/68aa65b5-7d84-491e-859d-013011a3d998/downloada5b5480f7cda4c69944a07c0833c9aedMD56falseAnonymousREAD20.500.12622/6288oai:dspace-itm.metabuscador.org:20.500.12622/62882025-06-24 09:21:20.453http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://dspace-itm.metabuscador.orgRepositorio Instituto Tecnológico Metropolitano de Medellínbdigital@metabiblioteca.comRWwgSW5zdGl0dXRvIFRlY25vbMOzZ2ljbyBNZXRyb3BvbGl0YW5vIChJVE0pLCBkaWZ1bmRlIG1lZGlhbnRlIHN1IFJlcG9zaXRvcmlvIEluc3RpdHVjaW9uYWwgbG9zIHRyYWJham9zIGRlIGludmVzdGlnYWNpw7NuIHByb2R1Y2lkb3MgcG9yIGxvcyBtaWVtYnJvcyBkZWwgSW5zdGl0dXRvLiBFbCBjb250ZW5pZG8gZGUgbG9zIGRvY3VtZW50b3MgZGlnaXRhbGVzIGVzIGRlIGFjY2VzbyBhYmllcnRvIHBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2xhcmEgcXVlIGVsIElUTSBubyB0aWVuZSBsb3MgZGVyZWNob3MgZGUgcHJvcGllZGFkIGludGVsZWN0dWFsLiBMb3MgZGVyZWNob3MgZGUgYXV0b3Igc2UgZW5jdWVudHJhbiBwcm90ZWdpZG9zIHBvciBsYSBsZWdpc2xhY2nDs24gY29sb21iaWEgZW4gbG9zIHTDqXJtaW5vcyBlc3RhYmxlY2lkb3MgZW4gbGEgTGV5IDIzIGRlIDE5ODIsIExleSA0NCBkZSAxOTkzLCBEZWNpc2nDs24gYW5kaW5hIDM1MSBkZSAxOTkzLCBEZWNyZXRvIDQ2MCBkZSAxOTk1IHkgZGVtw6FzIG5vcm1hcyBnZW5lcmFsZXMgc29icmUgbGEgbWF0ZXJpYSwgIHV0aWxpY2UgeSB1c2UgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbi4gU2luIGVtYmFyZ28sIGxvcyBkZXJlY2hvcyBtb3JhbGVzIGRlbCBhdXRvcihlcykgc29uIGFmZWN0YWRvcyBwb3IgbGEgcHJlc2VudGUgbGljZW5jaWEgZGUgdXNvLgoKU2UgYWNlcHRhIGxhIGRpZnVzacOzbiBww7pibGljYSBkZSBsYSBvYnJhLCBzdSBjb3BpYSB5IGRpc3RyaWJ1Y2nDs24gc2llbXByZSBxdWUgc2UgY3VtcGxhIGNvbiBsYXMgc2lndWllbnRlcyBjb25kaWNpb25lczoKCuKAoiAgICAgICBFbCBuZWNlc2FyaW8gcmVjb25vY2ltaWVudG8gZGUgbGEgYXV0b3LDrWEgZGUgbGEgb2JyYSwgaWRlbnRpZmljYW5kbyBvcG9ydHVuYSB5IGNvcnJlY3RhbWVudGUgYSBsYSBwZXJzb25hIHF1ZSBwb3NlYSBkZXJlY2hvcyBkZSBhdXRvci4KCuKAoiAgICAgICBObyBlc3TDoSBwZXJtaXRpZG8gZWwgdXNvIGluZGViaWRvIGRlbCB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIGNvbiBmaW5lcyBkZSBsdWNybyBvIGN1YWxxdWllciB0aXBvIGRlIGFjdGl2aWRhZCBxdWUgcHJvZHV6Y2EgIGdhbmFuY2lhcyBhIGxhcyBwZXJzb25hcyBxdWUgbG8gZGlmdW5kZW4gc2luIGVsIGNvbnNlbnRpbWllbnRvIGRlbCBhdXRvcihlcykgbGVnYWwoZXMpLgoK4oCiICAgICAgIExvcyB0cmFiYWpvcyBxdWUgc2UgcHJvZHV6Y2FuIGEgcGFydGlyIGRlIGxhIG9icmEsIGRlYmUgcG9zZWVyIGxhIGNpdGFjacOzbiBwZXJ0aW5lbnRlIHRhbCBjb21vIGluZGljYW4gbGFzIE5vcm1hcyBBUEEuIENhc28gY29udHJhcmlvLCBzZSBpbmN1cnJpcsOhIGVuIGxhIGZpZ3VyYSBkZWwgcGxhZ2lvLgo=