Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
Los datos acústicos se encuentran en muchas áreas de la vida y contienen un sinnúmero de información de alto valor para diferentes aplicaciones en la ciencia. Una vez los datos acústicos se digitalizan con dispositivos capaces de registrar la gama audible humana y ultrasónica, este potencial puede s...
- Autores:
-
Carmona Aguiar, Sebastián
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2023
- Institución:
- Instituto Tecnológico Metropolitano
- Repositorio:
- Repositorio ITM
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.itm.edu.co:20.500.12622/6288
- Acceso en línea:
- http://hdl.handle.net/20.500.12622/6288
- Palabra clave:
- Autoencoders
Generación de información sintética
Incrustación de vecinos estocásticos distribuidos en t (t-SNE)
Optimización de hiperparámetros (Optuna)
Red pre-entrenada VGGish
Sonidos ambientales
Autoencoders
Environmental sounds
Hyperparameter optimization (Optuna)
Synthetic information generation
t-Distributed stochastic neighbor embedding (t-SNE)
VGGish pre-trained network
- Rights
- License
- http://creativecommons.org/licenses/by-nc-nd/4.0/
id |
RepoITM2_a79c2a125f8449647fe682c9433a7ffe |
---|---|
oai_identifier_str |
oai:repositorio.itm.edu.co:20.500.12622/6288 |
network_acronym_str |
RepoITM2 |
network_name_str |
Repositorio ITM |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder |
dc.title.translated.spa.fl_str_mv |
Synthetic Acoustic Information Generation Using Neural Networks Variational Autoencoder And Conditional Variational Autoencoder |
title |
Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder |
spellingShingle |
Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder Autoencoders Generación de información sintética Incrustación de vecinos estocásticos distribuidos en t (t-SNE) Optimización de hiperparámetros (Optuna) Red pre-entrenada VGGish Sonidos ambientales Autoencoders Environmental sounds Hyperparameter optimization (Optuna) Synthetic information generation t-Distributed stochastic neighbor embedding (t-SNE) VGGish pre-trained network |
title_short |
Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder |
title_full |
Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder |
title_fullStr |
Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder |
title_full_unstemmed |
Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder |
title_sort |
Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder |
dc.creator.fl_str_mv |
Carmona Aguiar, Sebastián |
dc.contributor.advisor.none.fl_str_mv |
Castro Ospina, Andrés Eduardo Vega Escobar, Laura Stella |
dc.contributor.author.none.fl_str_mv |
Carmona Aguiar, Sebastián |
dc.contributor.email.spa.fl_str_mv |
sebastiancarmona230366@correo.itm.edu.co |
dc.subject.spa.fl_str_mv |
Autoencoders Generación de información sintética Incrustación de vecinos estocásticos distribuidos en t (t-SNE) Optimización de hiperparámetros (Optuna) Red pre-entrenada VGGish Sonidos ambientales |
topic |
Autoencoders Generación de información sintética Incrustación de vecinos estocásticos distribuidos en t (t-SNE) Optimización de hiperparámetros (Optuna) Red pre-entrenada VGGish Sonidos ambientales Autoencoders Environmental sounds Hyperparameter optimization (Optuna) Synthetic information generation t-Distributed stochastic neighbor embedding (t-SNE) VGGish pre-trained network |
dc.subject.keywords.spa.fl_str_mv |
Autoencoders Environmental sounds Hyperparameter optimization (Optuna) Synthetic information generation t-Distributed stochastic neighbor embedding (t-SNE) VGGish pre-trained network |
description |
Los datos acústicos se encuentran en muchas áreas de la vida y contienen un sinnúmero de información de alto valor para diferentes aplicaciones en la ciencia. Una vez los datos acústicos se digitalizan con dispositivos capaces de registrar la gama audible humana y ultrasónica, este potencial puede ser explorado y aprovechado, más aún con el poder que nos ofrece la inteligencia artificial para el análisis de datos e identificación de patrones. A pesar de todo ello, la grabación o recopilación de estos datos acústicos esconde muchos desafíos, ya sean por el esfuerzo logístico, limitaciones técnicas o de medios, que en su mayoría dejan brechas temporales sin información, incluso se dan fallos del dispositivo o por la misma técnica de grabación, que muchas veces se da por fracciones tiempo. Considerando estas situaciones, exploramos en este trabajo la posibilidad de generar información acústica sintética que se encuentre dentro del dominio de estudio para cubrir estos espacios de información, a partir de la implementación de redes neuronales autoencoder variacional (VAE) y autoencoder variacional condicional (CVAE), junto con las técnicas de generación por interpolación o basadas en etiquetas de clase. Para alcanzar nuestro objetivo se realizan pruebas sobre un conjunto de datos experimental de imágenes (MNIST) para posteriormente trabajar, con un conjunto de datos reales basado en información acústica de sonidos ambientales (UrbanSound8K). Durante este proceso se ejecutan tareas de caracterización embebida con el modelo pre-entrenado VGGish, optimización de hiperparámetros con el apoyo de la API Optuna, visualización y comprobación de resultados sobre espacios latentes mediante técnicas de visualización en baja dimensionalidad t-SNE. Medios que permitieron alcanzar el propósito de este trabajo e identificando cómo las arquitecturas VAE y CVAE, basadas en redes neuronales autoencoder, son modelos efectivos para esta aplicación en la generación sintética de información acústica dentro del dominio de estudio |
publishDate |
2023 |
dc.date.accessioned.none.fl_str_mv |
2023-12-12T20:11:15Z |
dc.date.available.none.fl_str_mv |
2023-12-12T20:11:15Z |
dc.date.issued.none.fl_str_mv |
2023 |
dc.type.local.spa.fl_str_mv |
Trabajo de grado de pregrado |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12622/6288 |
dc.identifier.instname.spa.fl_str_mv |
instname:Instituto Tecnológico Metropolitano |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Instituto Tecnológico Metropolitano |
dc.identifier.repourl.none.fl_str_mv |
repourl:https://repositorio.itm.edu.co/ |
url |
http://hdl.handle.net/20.500.12622/6288 |
identifier_str_mv |
instname:Instituto Tecnológico Metropolitano reponame:Repositorio Institucional Instituto Tecnológico Metropolitano repourl:https://repositorio.itm.edu.co/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.local.spa.fl_str_mv |
Acceso abierto |
dc.rights.creativecommons.*.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ Acceso abierto Attribution-NonCommercial-NoDerivatives 4.0 International http://purl.org/coar/access_right/c_abf2 |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ingenierías |
dc.publisher.program.spa.fl_str_mv |
Ingeniería de Sistemas |
dc.publisher.grantor.spa.fl_str_mv |
Instituto Tecnológico Metropolitano |
institution |
Instituto Tecnológico Metropolitano |
bitstream.url.fl_str_mv |
https://dspace-itm.metabuscador.org/bitstreams/f7abff45-1fec-4821-b1e3-97126cb1d08d/download https://dspace-itm.metabuscador.org/bitstreams/8865c5ca-c269-4add-aeb5-07e0d140e5ce/download https://dspace-itm.metabuscador.org/bitstreams/38c37fa5-fd13-449a-8ecf-ff25ff7b5637/download https://dspace-itm.metabuscador.org/bitstreams/63989895-a995-4f1f-bb44-a4057efdeebe/download https://dspace-itm.metabuscador.org/bitstreams/68aa65b5-7d84-491e-859d-013011a3d998/download |
bitstream.checksum.fl_str_mv |
0142289f84f8f6114d61fff9f0295b96 0142289f84f8f6114d61fff9f0295b96 7734e4171dd7ba1c98e697a13b9e06eb edb62d0370da937e29e31a437c102264 a5b5480f7cda4c69944a07c0833c9aed |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Instituto Tecnológico Metropolitano de Medellín |
repository.mail.fl_str_mv |
bdigital@metabiblioteca.com |
_version_ |
1837096883012501505 |
spelling |
Castro Ospina, Andrés EduardoVega Escobar, Laura StellaCarmona Aguiar, Sebastiánsebastiancarmona230366@correo.itm.edu.co2023-12-12T20:11:15Z2023-12-12T20:11:15Z2023http://hdl.handle.net/20.500.12622/6288instname:Instituto Tecnológico Metropolitanoreponame:Repositorio Institucional Instituto Tecnológico Metropolitanorepourl:https://repositorio.itm.edu.co/Los datos acústicos se encuentran en muchas áreas de la vida y contienen un sinnúmero de información de alto valor para diferentes aplicaciones en la ciencia. Una vez los datos acústicos se digitalizan con dispositivos capaces de registrar la gama audible humana y ultrasónica, este potencial puede ser explorado y aprovechado, más aún con el poder que nos ofrece la inteligencia artificial para el análisis de datos e identificación de patrones. A pesar de todo ello, la grabación o recopilación de estos datos acústicos esconde muchos desafíos, ya sean por el esfuerzo logístico, limitaciones técnicas o de medios, que en su mayoría dejan brechas temporales sin información, incluso se dan fallos del dispositivo o por la misma técnica de grabación, que muchas veces se da por fracciones tiempo. Considerando estas situaciones, exploramos en este trabajo la posibilidad de generar información acústica sintética que se encuentre dentro del dominio de estudio para cubrir estos espacios de información, a partir de la implementación de redes neuronales autoencoder variacional (VAE) y autoencoder variacional condicional (CVAE), junto con las técnicas de generación por interpolación o basadas en etiquetas de clase. Para alcanzar nuestro objetivo se realizan pruebas sobre un conjunto de datos experimental de imágenes (MNIST) para posteriormente trabajar, con un conjunto de datos reales basado en información acústica de sonidos ambientales (UrbanSound8K). Durante este proceso se ejecutan tareas de caracterización embebida con el modelo pre-entrenado VGGish, optimización de hiperparámetros con el apoyo de la API Optuna, visualización y comprobación de resultados sobre espacios latentes mediante técnicas de visualización en baja dimensionalidad t-SNE. Medios que permitieron alcanzar el propósito de este trabajo e identificando cómo las arquitecturas VAE y CVAE, basadas en redes neuronales autoencoder, son modelos efectivos para esta aplicación en la generación sintética de información acústica dentro del dominio de estudioAcoustic data is found in many areas of life and contains a wealth of information of high value for different applications in science. Once acoustic data is digitized with devices capable of recording the human and ultrasonic audible range, and this potential can be explored and harnessed, even more so with the power of artificial intelligence for data analysis and pattern identification. Despite all this, the recording or collecting these acoustic data hides many challenges, either by the logistical effort, technical or media limitations, which mostly leave temporary gaps without information, even device failures, or by the same recording technique, which often occurs for fractions of time. Considering these situations, we explore in this work the possibility of generating synthetic acoustic information that is within the domain of study to cover these information gaps from the implementation of neural networks variational autoencoder (VAE) and conditional variational autoencoder (CVAE), along with generation techniques by interpolation or based on class labels. To achieve our goal, tests are performed on an experimental image dataset (MNIST) to later work with a real dataset based on acoustic information of environmental sounds (UrbanSound8K). During this process, embedded characterization tasks are executed with the pre-trained VGGish model, hyperparameter optimization with the support of the Optuna API, and visualization and verification of results on latent spaces using low dimensional t-SNE visualization techniques. Tools that allowed achieving the purpose of this work and identifying how VAE and CVAE architectures, based on autoencoder neural networks, are effective models for this application in the synthetic generation of acoustic information within the domain of studyIngeniero de Sistemaspregradoapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/4.0/Acceso abiertoAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://purl.org/coar/access_right/c_abf2AutoencodersGeneración de información sintéticaIncrustación de vecinos estocásticos distribuidos en t (t-SNE)Optimización de hiperparámetros (Optuna)Red pre-entrenada VGGishSonidos ambientalesAutoencodersEnvironmental soundsHyperparameter optimization (Optuna)Synthetic information generationt-Distributed stochastic neighbor embedding (t-SNE)VGGish pre-trained networkGeneración de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoderSynthetic Acoustic Information Generation Using Neural Networks Variational Autoencoder And Conditional Variational AutoencoderFacultad de IngenieríasIngeniería de SistemasInstituto Tecnológico MetropolitanoTrabajo de grado de pregradohttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/bachelorThesisPublicationORIGINALSebastianCarmonaAguiar_2023.pdfSebastianCarmonaAguiar_2023.pdfTrabajo de gradoapplication/pdf3135657https://dspace-itm.metabuscador.org/bitstreams/f7abff45-1fec-4821-b1e3-97126cb1d08d/download0142289f84f8f6114d61fff9f0295b96MD51trueAnonymousREADSebastianCarmonaAguiar_2023.pdfSebastianCarmonaAguiar_2023.pdfcarta de autorizaciónapplication/pdf3135657https://dspace-itm.metabuscador.org/bitstreams/8865c5ca-c269-4add-aeb5-07e0d140e5ce/download0142289f84f8f6114d61fff9f0295b96MD54falseAnonymousREAD2070-12-31LICENSElicense.txtlicense.txttext/plain; charset=utf-81406https://dspace-itm.metabuscador.org/bitstreams/38c37fa5-fd13-449a-8ecf-ff25ff7b5637/download7734e4171dd7ba1c98e697a13b9e06ebMD53falseAnonymousREADTHUMBNAILSebastianCarmonaAguiar_2023.pdf.jpgSebastianCarmonaAguiar_2023.pdf.jpgGenerated Thumbnailimage/jpeg5292https://dspace-itm.metabuscador.org/bitstreams/63989895-a995-4f1f-bb44-a4057efdeebe/downloadedb62d0370da937e29e31a437c102264MD55falseAnonymousREADTEXTSebastianCarmonaAguiar_2023.pdf.txtSebastianCarmonaAguiar_2023.pdf.txtExtracted texttext/plain102169https://dspace-itm.metabuscador.org/bitstreams/68aa65b5-7d84-491e-859d-013011a3d998/downloada5b5480f7cda4c69944a07c0833c9aedMD56falseAnonymousREAD20.500.12622/6288oai:dspace-itm.metabuscador.org:20.500.12622/62882025-06-24 09:21:20.453http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://dspace-itm.metabuscador.orgRepositorio Instituto Tecnológico Metropolitano de Medellínbdigital@metabiblioteca.comRWwgSW5zdGl0dXRvIFRlY25vbMOzZ2ljbyBNZXRyb3BvbGl0YW5vIChJVE0pLCBkaWZ1bmRlIG1lZGlhbnRlIHN1IFJlcG9zaXRvcmlvIEluc3RpdHVjaW9uYWwgbG9zIHRyYWJham9zIGRlIGludmVzdGlnYWNpw7NuIHByb2R1Y2lkb3MgcG9yIGxvcyBtaWVtYnJvcyBkZWwgSW5zdGl0dXRvLiBFbCBjb250ZW5pZG8gZGUgbG9zIGRvY3VtZW50b3MgZGlnaXRhbGVzIGVzIGRlIGFjY2VzbyBhYmllcnRvIHBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2xhcmEgcXVlIGVsIElUTSBubyB0aWVuZSBsb3MgZGVyZWNob3MgZGUgcHJvcGllZGFkIGludGVsZWN0dWFsLiBMb3MgZGVyZWNob3MgZGUgYXV0b3Igc2UgZW5jdWVudHJhbiBwcm90ZWdpZG9zIHBvciBsYSBsZWdpc2xhY2nDs24gY29sb21iaWEgZW4gbG9zIHTDqXJtaW5vcyBlc3RhYmxlY2lkb3MgZW4gbGEgTGV5IDIzIGRlIDE5ODIsIExleSA0NCBkZSAxOTkzLCBEZWNpc2nDs24gYW5kaW5hIDM1MSBkZSAxOTkzLCBEZWNyZXRvIDQ2MCBkZSAxOTk1IHkgZGVtw6FzIG5vcm1hcyBnZW5lcmFsZXMgc29icmUgbGEgbWF0ZXJpYSwgIHV0aWxpY2UgeSB1c2UgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbi4gU2luIGVtYmFyZ28sIGxvcyBkZXJlY2hvcyBtb3JhbGVzIGRlbCBhdXRvcihlcykgc29uIGFmZWN0YWRvcyBwb3IgbGEgcHJlc2VudGUgbGljZW5jaWEgZGUgdXNvLgoKU2UgYWNlcHRhIGxhIGRpZnVzacOzbiBww7pibGljYSBkZSBsYSBvYnJhLCBzdSBjb3BpYSB5IGRpc3RyaWJ1Y2nDs24gc2llbXByZSBxdWUgc2UgY3VtcGxhIGNvbiBsYXMgc2lndWllbnRlcyBjb25kaWNpb25lczoKCuKAoiAgICAgICBFbCBuZWNlc2FyaW8gcmVjb25vY2ltaWVudG8gZGUgbGEgYXV0b3LDrWEgZGUgbGEgb2JyYSwgaWRlbnRpZmljYW5kbyBvcG9ydHVuYSB5IGNvcnJlY3RhbWVudGUgYSBsYSBwZXJzb25hIHF1ZSBwb3NlYSBkZXJlY2hvcyBkZSBhdXRvci4KCuKAoiAgICAgICBObyBlc3TDoSBwZXJtaXRpZG8gZWwgdXNvIGluZGViaWRvIGRlbCB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIGNvbiBmaW5lcyBkZSBsdWNybyBvIGN1YWxxdWllciB0aXBvIGRlIGFjdGl2aWRhZCBxdWUgcHJvZHV6Y2EgIGdhbmFuY2lhcyBhIGxhcyBwZXJzb25hcyBxdWUgbG8gZGlmdW5kZW4gc2luIGVsIGNvbnNlbnRpbWllbnRvIGRlbCBhdXRvcihlcykgbGVnYWwoZXMpLgoK4oCiICAgICAgIExvcyB0cmFiYWpvcyBxdWUgc2UgcHJvZHV6Y2FuIGEgcGFydGlyIGRlIGxhIG9icmEsIGRlYmUgcG9zZWVyIGxhIGNpdGFjacOzbiBwZXJ0aW5lbnRlIHRhbCBjb21vIGluZGljYW4gbGFzIE5vcm1hcyBBUEEuIENhc28gY29udHJhcmlvLCBzZSBpbmN1cnJpcsOhIGVuIGxhIGZpZ3VyYSBkZWwgcGxhZ2lvLgo= |