Herramienta para reducir automáticamente la duración de un discurso en ingles adaptada a las características de voz de un hablante
The development of the tool was divided into three phases: manual labeling of important audio segments, extraction of audio parameters and system training. In the phase of labeling a web application was implemented in order to speed up the process. Feature extraction was performed with MIRTOOLBOX li...
- Autores:
-
Alarcón Pedroza, Lebis Armando
Gutiérrez Erazo, José Luis
- Tipo de recurso:
- Fecha de publicación:
- 2015
- Institución:
- Universidad de San Buenaventura
- Repositorio:
- Repositorio USB
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.usb.edu.co:10819/3106
- Acceso en línea:
- http://hdl.handle.net/10819/3106
- Palabra clave:
- Señales digitales
Procesamiento del habla
Pattern recognition
Redes neurales (Computadores)
Aprendizaje automático (Inteligencia artíficial)
Habla
Audio digital
- Rights
- License
- http://purl.org/coar/access_right/c_abf2
id |
SANBUENAV2_26c9972528ac34ab53dd1daa8065028b |
---|---|
oai_identifier_str |
oai:bibliotecadigital.usb.edu.co:10819/3106 |
network_acronym_str |
SANBUENAV2 |
network_name_str |
Repositorio USB |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Herramienta para reducir automáticamente la duración de un discurso en ingles adaptada a las características de voz de un hablante |
title |
Herramienta para reducir automáticamente la duración de un discurso en ingles adaptada a las características de voz de un hablante |
spellingShingle |
Herramienta para reducir automáticamente la duración de un discurso en ingles adaptada a las características de voz de un hablante Señales digitales Procesamiento del habla Pattern recognition Redes neurales (Computadores) Aprendizaje automático (Inteligencia artíficial) Habla Audio digital |
title_short |
Herramienta para reducir automáticamente la duración de un discurso en ingles adaptada a las características de voz de un hablante |
title_full |
Herramienta para reducir automáticamente la duración de un discurso en ingles adaptada a las características de voz de un hablante |
title_fullStr |
Herramienta para reducir automáticamente la duración de un discurso en ingles adaptada a las características de voz de un hablante |
title_full_unstemmed |
Herramienta para reducir automáticamente la duración de un discurso en ingles adaptada a las características de voz de un hablante |
title_sort |
Herramienta para reducir automáticamente la duración de un discurso en ingles adaptada a las características de voz de un hablante |
dc.creator.fl_str_mv |
Alarcón Pedroza, Lebis Armando Gutiérrez Erazo, José Luis |
dc.contributor.advisor.none.fl_str_mv |
Gómez Escobar, Jairo Alejandro |
dc.contributor.author.none.fl_str_mv |
Alarcón Pedroza, Lebis Armando Gutiérrez Erazo, José Luis |
dc.subject.spa.fl_str_mv |
Señales digitales Procesamiento del habla Pattern recognition |
topic |
Señales digitales Procesamiento del habla Pattern recognition Redes neurales (Computadores) Aprendizaje automático (Inteligencia artíficial) Habla Audio digital |
dc.subject.lemb.spa.fl_str_mv |
Redes neurales (Computadores) Aprendizaje automático (Inteligencia artíficial) Habla Audio digital |
description |
The development of the tool was divided into three phases: manual labeling of important audio segments, extraction of audio parameters and system training. In the phase of labeling a web application was implemented in order to speed up the process. Feature extraction was performed with MIRTOOLBOX library, and the implementation of classifiers and interface was performed using MATLAB. Five classifiers were compared: Linear discriminant analysis (LDA), quadratic discriminant analysis (QDA), Logistic Regression, Artificial neural networks (ANNs) and support vector machines (SVMs), where the best accuracy results were obtained with ANNs: 79.19% and SVMs: 81.21%. Tests were performed to measure the reduction percentage with three new audio. These tests showed an average reduction of 27.34% using ANNs and 24.50% using SVMs. In addition comprehension tests were performed using a reduced audio created by the tool. A 16.67% of information loss was found. It was concluded that the prosodic and spectral parameters provide sufficient data for a classification of relative importance. It was also found that mixing the prosodic and spectral parameters in the same data set provides better accuracy. |
publishDate |
2015 |
dc.date.issued.none.fl_str_mv |
2015 |
dc.date.accessioned.none.fl_str_mv |
2016-08-09T15:42:54Z |
dc.date.available.none.fl_str_mv |
2016-08-09T15:42:54Z |
dc.date.submitted.none.fl_str_mv |
2016 |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.spa.spa.fl_str_mv |
Trabajo de Grado |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10819/3106 |
url |
http://hdl.handle.net/10819/3106 |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.format.spa.fl_str_mv |
pdf |
dc.format.extent.spa.fl_str_mv |
124 páginas |
dc.format.medium.spa.fl_str_mv |
Recurso en linea |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.spa.fl_str_mv |
Universidad de San Buenaventura |
dc.publisher.faculty.spa.fl_str_mv |
Ingenierias |
dc.publisher.program.spa.fl_str_mv |
Ingeniería Multimedia |
dc.publisher.sede.spa.fl_str_mv |
Cali |
institution |
Universidad de San Buenaventura |
dc.source.instname.spa.fl_str_mv |
Universidad de San Buenaventura - Cali |
dc.source.other.spa.fl_str_mv |
Cali, Mediateca 1er. Piso, T006.32 A321h CD-ROM |
dc.source.reponame.spa.fl_str_mv |
Biblioteca Digital Universidad de San Buenaventura |
bitstream.url.fl_str_mv |
https://bibliotecadigital.usb.edu.co/bitstreams/564a58b4-7a9c-4ab8-9ee3-89027e126cb2/download https://bibliotecadigital.usb.edu.co/bitstreams/898661a4-c5e5-4377-aad3-81484b0e1ce5/download https://bibliotecadigital.usb.edu.co/bitstreams/cd7fcb63-5fd4-42ab-9ec0-66e70a69df43/download https://bibliotecadigital.usb.edu.co/bitstreams/8509356a-447d-46b8-927e-ad427b75f02f/download |
bitstream.checksum.fl_str_mv |
b36242ddc9ef4a49f34d30b52f1ab202 c810740ad85d8bb23e302c0c1ecdebc0 36e8102010b5feea21c6a5e67ac8fbab a8c42e46b61737b7a3e1240f196a1264 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad de San Buenaventura Colombia |
repository.mail.fl_str_mv |
bdigital@metabiblioteca.com |
_version_ |
1837099203795353600 |
spelling |
Comunidad Científica y AcadémicaGómez Escobar, Jairo Alejandroa815975e-3834-4a84-bf2c-a2161874ed29-1Alarcón Pedroza, Lebis Armando878f5ecc-915b-4b57-a477-7ec34da4504a-1Gutiérrez Erazo, José Luis0e418de4-0cd9-45c6-9982-61b9aae4f97e-12016-08-09T15:42:54Z2016-08-09T15:42:54Z20152016The development of the tool was divided into three phases: manual labeling of important audio segments, extraction of audio parameters and system training. In the phase of labeling a web application was implemented in order to speed up the process. Feature extraction was performed with MIRTOOLBOX library, and the implementation of classifiers and interface was performed using MATLAB. Five classifiers were compared: Linear discriminant analysis (LDA), quadratic discriminant analysis (QDA), Logistic Regression, Artificial neural networks (ANNs) and support vector machines (SVMs), where the best accuracy results were obtained with ANNs: 79.19% and SVMs: 81.21%. Tests were performed to measure the reduction percentage with three new audio. These tests showed an average reduction of 27.34% using ANNs and 24.50% using SVMs. In addition comprehension tests were performed using a reduced audio created by the tool. A 16.67% of information loss was found. It was concluded that the prosodic and spectral parameters provide sufficient data for a classification of relative importance. It was also found that mixing the prosodic and spectral parameters in the same data set provides better accuracy.El desarrollo de la herramienta se dividió en tres fases: etiquetado manual de segmentos importantes de un audio, extracción de parámetros (características) del audio y entrenamiento del sistema. En la etapa de etiquetado se desarrolló una aplicación web que permitió aligerar el proceso. La extracción de características se realizó con la librería MIRTOOLBOX, y en la implementación de clasificadores e interfaz de la herramienta se utilizó MATLAB. Se compararon cinco clasificadores: Análisis discriminante lineal (ADL), Análisis discriminante cuadrático (ADC), Regresión logística, Redes neuronales artificiales (RNA) y Máquinas de soporte vectorial (MSV), donde los mejores resultados se obtuvieron con RNA: 79.19% de exactitud y MSV: 81.21% de exactitud. Se realizaron pruebas para medir el porcentaje de reducción con tres audios nuevos. Estas pruebas arrojaron un promedio de reducción de 27.34 % usando RNA y 24.50 % usando MSV. Además se hicieron pruebas de comprensión de un audio reducido con la herramienta desarrollada y se encontró una pérdida de información del 16.67 %. Se concluyó que los parámetros prosódicos y espectrales aportan datos suficientes para realizar una clasificación de importancia relativa. También se encontró que mezclando las características prosódicas y espectrales en un mismo conjunto de datos se obtiene la mayor exactitud.Universidad de San Buenaventura - Calipdf124 páginasRecurso en lineaapplication/pdfhttp://hdl.handle.net/10819/3106spaUniversidad de San BuenaventuraIngenieriasIngeniería MultimediaCaliPor medio de este formato manifiesto mi voluntad de AUTORIZAR a la Universidad de San Buenaventura, Sede Bogotá, Seccionales Medellín, Cali y Cartagena, la difusión en texto completo de manera gratuita y por tiempo indefinido en la Biblioteca Digital Universidad de San Buenaventura, el documento académico-investigativo objeto de la presente autorización, con fines estrictamente educativos, científicos y culturales, en los términos establecidos en la Ley 23 de 1982, Ley 44 de 1993, Decisión Andina 351 de 1993, Decreto 460 de 1995 y demás normas generales sobre derechos de autor. Como autor manifiesto que el presente documento académico-investigativo es original y se realiza sin violar o usurpar derechos de autor de terceros, por lo tanto, la obra es de mi exclusiva autora y poseo la titularidad sobre la misma. La Universidad de San Buenaventura no será responsable de ninguna utilización indebida del documento por parte de terceros y será exclusivamente mi responsabilidad atender personalmente cualquier reclamación que pueda presentarse a la Universidad. Autorizo a la Biblioteca Digital de la Universidad de San Buenaventura convertir el documento al formato que el repositorio lo requiera (impreso, digital, electrónico o cualquier otro conocido o por conocer) o con fines de preservación digital. Esta autorización no implica renuncia a la facultad que tengo de publicar posteriormente la obra, en forma total o parcial, por lo cual podrá, dando aviso por escrito con no menos de un mes de antelación, solicitar que el documento deje de estar disponible para el público en la Biblioteca Digital de la Universidad de San Buenaventura, así mismo, cuando se requiera por razones legales y/o reglas del editor de una revista.http://purl.org/coar/access_right/c_abf2Universidad de San Buenaventura - CaliCali, Mediateca 1er. Piso, T006.32 A321h CD-ROMBiblioteca Digital Universidad de San BuenaventuraSeñales digitalesProcesamiento del hablaPattern recognitionRedes neurales (Computadores)Aprendizaje automático (Inteligencia artíficial)HablaAudio digitalIngeniero de MultimediaHerramienta para reducir automáticamente la duración de un discurso en ingles adaptada a las características de voz de un hablanteTrabajo de grado - PregradoTrabajo de Gradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fPublicationORIGINALHerramienta_reducir_discurso_alarcon_2015.pdfHerramienta_reducir_discurso_alarcon_2015.pdfapplication/pdf2586815https://bibliotecadigital.usb.edu.co/bitstreams/564a58b4-7a9c-4ab8-9ee3-89027e126cb2/downloadb36242ddc9ef4a49f34d30b52f1ab202MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82111https://bibliotecadigital.usb.edu.co/bitstreams/898661a4-c5e5-4377-aad3-81484b0e1ce5/downloadc810740ad85d8bb23e302c0c1ecdebc0MD52TEXTHerramienta_reducir_discurso_alarcon_2015.pdf.txtHerramienta_reducir_discurso_alarcon_2015.pdf.txtExtracted texttext/plain146697https://bibliotecadigital.usb.edu.co/bitstreams/cd7fcb63-5fd4-42ab-9ec0-66e70a69df43/download36e8102010b5feea21c6a5e67ac8fbabMD53THUMBNAILHerramienta_reducir_discurso_alarcon_2015.pdf.jpgHerramienta_reducir_discurso_alarcon_2015.pdf.jpgGenerated Thumbnailimage/jpeg9377https://bibliotecadigital.usb.edu.co/bitstreams/8509356a-447d-46b8-927e-ad427b75f02f/downloada8c42e46b61737b7a3e1240f196a1264MD5410819/3106oai:bibliotecadigital.usb.edu.co:10819/31062023-02-23 16:24:40.346https://bibliotecadigital.usb.edu.coRepositorio Institucional Universidad de San Buenaventura Colombiabdigital@metabiblioteca.comPGNlbnRlcj4KPGgzPkJJQkxJT1RFQ0EgRElHSVRBTCBVTklWRVJTSURBRCBERSBTQU4gQlVFTkFWRU5UVVJBIC0gQ09MT01CSUE8L2gzPgo8cD4KVMODwqlybWlub3MgZGUgbGEgbGljZW5jaWEgZ2VuZXJhbCBwYXJhIHB1YmxpY2FjacODwrNuIGRlIG9icmFzIGVuIGVsIHJlcG9zaXRvcmlvIGluc3RpdHVjaW9uYWw8L3A+PC9jZW50ZXI+CjxQIEFMSUdOPWNlbnRlcj4KUG9yIG1lZGlvIGRlIGVzdGUgZm9ybWF0byBtYW5pZmllc3RvIG1pIHZvbHVudGFkIGRlIEFVVE9SSVpBUiBhIGxhIFVuaXZlcnNpZGFkIGRlIFNhbiBCdWVuYXZlbnR1cmEsIFNlZGUgQm9nb3TDg8KhIHkgPEJSPlNlY2Npb25hbGVzIE1lZGVsbMODwq1uLCBDYWxpIHkgQ2FydGFnZW5hLCBsYSBkaWZ1c2nDg8KzbiBlbiB0ZXh0byBjb21wbGV0byBkZSBtYW5lcmEgZ3JhdHVpdGEgeSBwb3IgdGllbXBvIGluZGVmaW5pZG8gZW4gbGE8QlI+IEJpYmxpb3RlY2EgRGlnaXRhbCBVbml2ZXJzaWRhZCBkZSBTYW4gQnVlbmF2ZW50dXJhLCBlbCBkb2N1bWVudG8gYWNhZMODwqltaWNvLWludmVzdGlnYXRpdm8gb2JqZXRvIGRlIGxhIHByZXNlbnRlIDxCUj5hdXRvcml6YWNpw4PCs24sIGNvbiBmaW5lcyBlc3RyaWN0YW1lbnRlIGVkdWNhdGl2b3MsIGNpZW50w4PCrWZpY29zIHkgY3VsdHVyYWxlcywgZW4gbG9zIHTDg8Kpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgPEJSPiAxOTgyLCBMZXkgNDQgZGUgMTk5MywgRGVjaXNpw4PCs24gQW5kaW5hIDM1MSBkZSAxOTkzLCBEZWNyZXRvIDQ2MCBkZSAxOTk1IHkgZGVtw4PCoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBkZXJlY2hvczxCUj4gZGUgYXV0b3IuIDxCUj4gCiAKQ29tbyBhdXRvciBtYW5pZmllc3RvIHF1ZSBlbCBwcmVzZW50ZSBkb2N1bWVudG8gYWNhZMODwqltaWNvLWludmVzdGlnYXRpdm8gZXMgb3JpZ2luYWwgeSBzZSByZWFsaXrDg8KzIHNpbiB2aW9sYXIgbyA8QlI+IHVzdXJwYXIgZGVyZWNob3MgZGUgYXV0b3IgZGUgdGVyY2Vyb3MsIHBvciBsbyB0YW50bywgbGEgb2JyYSBlcyBkZSBtaSBleGNsdXNpdmEgYXV0b3LDg8KtYSB5IHBvc2VvIGxhIHRpdHVsYXJpZGFkIDxCUj4gc29icmUgbGEgbWlzbWEuIExhIFVuaXZlcnNpZGFkIGRlIFNhbiBCdWVuYXZlbnR1cmEgbm8gc2Vyw4PCoSByZXNwb25zYWJsZSBkZSBuaW5ndW5hIHV0aWxpemFjacODwrNuIGluZGViaWRhIGRlbCBkb2N1bWVudG8gPEJSPnBvciBwYXJ0ZSBkZSB0ZXJjZXJvcyB5IHNlcsODwqEgZXhjbHVzaXZhbWVudGUgbWkgcmVzcG9uc2FiaWxpZGFkIGF0ZW5kZXIgcGVyc29uYWxtZW50ZSBjdWFscXVpZXIgcmVjbGFtYWNpw4PCs24gcXVlIHB1ZWRhPEJSPiBwcmVzZW50YXJzZSBhIGxhIFVuaXZlcnNpZGFkLiA8QlI+CiAKQXV0b3Jpem8gYSBsYSBCaWJsaW90ZWNhIERpZ2l0YWwgZGUgbGEgVW5pdmVyc2lkYWQgZGUgU2FuIEJ1ZW5hdmVudHVyYSBjb252ZXJ0aXIgZWwgZG9jdW1lbnRvIGFsIGZvcm1hdG8gcXVlIGVsIDxCUj5yZXBvc2l0b3JpbyBsbyByZXF1aWVyYSAoaW1wcmVzbywgZGlnaXRhbCwgZWxlY3Ryw4PCs25pY28gbyBjdWFscXVpZXIgb3RybyBjb25vY2lkbyBvIHBvciBjb25vY2VyKSBvIGNvbiBmaW5lcyBkZTxCUj4gcHJlc2VydmFjacODwrNuIGRpZ2l0YWwuIDxCUj4KIApFc3RhIGF1dG9yaXphY2nDg8KzbiBubyBpbXBsaWNhIHJlbnVuY2lhIGEgbGEgZmFjdWx0YWQgcXVlIHRlbmdvIGRlIHB1YmxpY2FyIHBvc3Rlcmlvcm1lbnRlIGxhIG9icmEsIGVuIGZvcm1hIHRvdGFsIG8gPEJSPnBhcmNpYWwsIHBvciBsbyBjdWFsIHBvZHLDg8KpLCBkYW5kbyBhdmlzbyBwb3IgZXNjcml0byBjb24gbm8gbWVub3MgZGUgdW4gbWVzIGRlIGFudGVsYWNpw4PCs24sIHNvbGljaXRhciBxdWUgZWwgPEJSPmRvY3VtZW50byBkZWplIGRlIGVzdGFyIGRpc3BvbmlibGUgcGFyYSBlbCBww4PCumJsaWNvIGVuIGxhIEJpYmxpb3RlY2EgRGlnaXRhbCBkZSBsYSBVbml2ZXJzaWRhZCBkZSBTYW4gQnVlbmF2ZW50dXJhLCA8QlI+IGFzw4PCrSBtaXNtbywgY3VhbmRvIHNlIHJlcXVpZXJhIHBvciByYXpvbmVzIGxlZ2FsZXMgeS9vIHJlZ2xhcyBkZWwgZWRpdG9yIGRlIHVuYSByZXZpc3RhLiA8QlI+PC9QPgo= |