Desarrollo de una herramienta computacional para la evaluación de la calidad de voz con base en la escala GRBAS

Voice quality analysis has become a routine activity in clinics and hospitals, where they are performed by voice professionals (speech therapists); These analyses are generally performed based on the GRBAS scale, and present subjective characteristics highly influenced by experience, level of educat...

Full description

Autores:
Ruano Bolaños, Jesús Andrés
Alegría Cardona, Cristian David
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2021
Institución:
Universidad Antonio Nariño
Repositorio:
Repositorio UAN
Idioma:
spa
OAI Identifier:
oai:repositorio.uan.edu.co:123456789/5963
Acceso en línea:
http://repositorio.uan.edu.co/handle/123456789/5963
Palabra clave:
Subjetividad
Machine learning
Procesamiento de señales
GRBAS
Calidad vocal
Herramienta computacional
Subjectivity
Computational tool
Vocal quality
GRBAS
Signal processing
Machine learning
Rights
openAccess
License
Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
id UAntonioN2_2e3320a070ff496ac70c7604625c7265
oai_identifier_str oai:repositorio.uan.edu.co:123456789/5963
network_acronym_str UAntonioN2
network_name_str Repositorio UAN
repository_id_str
dc.title.es_ES.fl_str_mv Desarrollo de una herramienta computacional para la evaluación de la calidad de voz con base en la escala GRBAS
title Desarrollo de una herramienta computacional para la evaluación de la calidad de voz con base en la escala GRBAS
spellingShingle Desarrollo de una herramienta computacional para la evaluación de la calidad de voz con base en la escala GRBAS
Subjetividad
Machine learning
Procesamiento de señales
GRBAS
Calidad vocal
Herramienta computacional
Subjectivity
Computational tool
Vocal quality
GRBAS
Signal processing
Machine learning
title_short Desarrollo de una herramienta computacional para la evaluación de la calidad de voz con base en la escala GRBAS
title_full Desarrollo de una herramienta computacional para la evaluación de la calidad de voz con base en la escala GRBAS
title_fullStr Desarrollo de una herramienta computacional para la evaluación de la calidad de voz con base en la escala GRBAS
title_full_unstemmed Desarrollo de una herramienta computacional para la evaluación de la calidad de voz con base en la escala GRBAS
title_sort Desarrollo de una herramienta computacional para la evaluación de la calidad de voz con base en la escala GRBAS
dc.creator.fl_str_mv Ruano Bolaños, Jesús Andrés
Alegría Cardona, Cristian David
dc.contributor.advisor.spa.fl_str_mv Villamarín Muñoz, Julián Antonio
dc.contributor.author.spa.fl_str_mv Ruano Bolaños, Jesús Andrés
Alegría Cardona, Cristian David
dc.subject.es_ES.fl_str_mv Subjetividad
Machine learning
Procesamiento de señales
GRBAS
Calidad vocal
Herramienta computacional
topic Subjetividad
Machine learning
Procesamiento de señales
GRBAS
Calidad vocal
Herramienta computacional
Subjectivity
Computational tool
Vocal quality
GRBAS
Signal processing
Machine learning
dc.subject.keyword.es_ES.fl_str_mv Subjectivity
Computational tool
Vocal quality
GRBAS
Signal processing
Machine learning
description Voice quality analysis has become a routine activity in clinics and hospitals, where they are performed by voice professionals (speech therapists); These analyses are generally performed based on the GRBAS scale, and present subjective characteristics highly influenced by experience, level of education of staff, among others (Gordillo, 2018). For this project, the database of synthetic voices developed by the Antonio Nariño University was implemented through the Evaper application, with the purpose of developing a computational tool for the evaluation of voice quality, through the extraction of both acoustic and statistical vocal characteristics, and the implementation of machine learning systems to give a respective diagnosis based on the GRBAS scale. As a first result, it was found that the algorithm in charge of performing the extraction of vocal features presented a strong level of correlation with respect to the Praat software, software that was considered as a standard system due to its very significant trajectory in the field of speech therapy; reaching a Spearman rho correlation > 0.85, thus validating the algorithm dedicated to the extraction of features, and the implemented methodological process. As a second result, it was found that the classification models implemented in this project presented a high level of accuracy, with the exception of one of the parameters of the female gender (Roughness), due to the existence of an error in the database, since it presented a lack of information for this gender; the results obtained in percentage scale of the level of accuracy of the models that make up the tool are: Hoarseness Models for male gender =71.2% , Tension Asthenia Models for male gender = 84.8% , Tension Asthenia Models for male gender = 93.3%, Grade Models for male gender = 93.6%, Hoarseness Models for female gender = 40.5% , Tension Asthenia Models for female gender = 90.5% , Tension Asthenia Models for female gender = 97.7%, Grade Models for female gender = 95.3%. As a last result, after performing a preliminary preview of phase 2, which consisted of evaluating the performance of the tool implemented 10 real voices provided by the Universidad del Valle, low levels of accuracy and correlation were obtained, being these values equal to: Accuracy <= 50% and -0,2 < Correlation <= 0,5. The results obtained through the evaluation of the models developed with synthetic voices, allowed validating the performance of the computational tool, however, the results after performing the preliminary preview, despite not being very significant due to the low amount of data, showed that it is necessary to carry out an analysis of the tool in order to make the appropriate modifications to improve the effectiveness of its operation when implemented with real voices.
publishDate 2021
dc.date.issued.spa.fl_str_mv 2021-11-26
dc.date.accessioned.none.fl_str_mv 2022-02-21T13:47:45Z
dc.date.available.none.fl_str_mv 2022-02-21T13:47:45Z
dc.type.spa.fl_str_mv Trabajo de grado (Pregrado y/o Especialización)
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.coarversion.none.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://repositorio.uan.edu.co/handle/123456789/5963
dc.identifier.bibliographicCitation.spa.fl_str_mv Aguilar, H., & Vélez Julia. (2016). Relación entre las pruebas aerodinámicas de la fonación con la escala GRBAS para alertar riesgo de disodeas en cantantes en formación de la Universidad del Valle, Santiago de Cali - 2016. Universidad del Valle.
Barrios, J. (2019, July 26). La matriz de confusión y sus métricas. Health Big Data.
Behlau, M. (2014). Voxmetria (3.3.). CTS informática.
Belletti, A. (2018). Valor Cuadrático Medio o RMS. SCRIBD.
Boersma, P. (2009, October 10). Should Jitter Be Measured by Peak Picking or by Waveform Matching? Folia Phoniatrica et Logopaedica
Boersma, P., & Weenink, D. (2011). Praat (6.1.52).
Camacho, C. (2007). COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON. In CORRELACIÓN LINEAL DE PEARSON.
Centre for speech technology. (2019). WaveSurfer (1.8.8). speech.kth.se.
Cerda, J., & Cifuentes, L. (2012). Uso de curvas ROC en investigación clínica. Aspectos teórico-prácticos. Revista Chilena de Infectología.
Clavbo, B. (2006). Method and device for speech analysis (Patent No. US7092874).
dc.identifier.instname.spa.fl_str_mv instname:Universidad Antonio Nariño
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional UAN
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uan.edu.co/
url http://repositorio.uan.edu.co/handle/123456789/5963
identifier_str_mv Aguilar, H., & Vélez Julia. (2016). Relación entre las pruebas aerodinámicas de la fonación con la escala GRBAS para alertar riesgo de disodeas en cantantes en formación de la Universidad del Valle, Santiago de Cali - 2016. Universidad del Valle.
Barrios, J. (2019, July 26). La matriz de confusión y sus métricas. Health Big Data.
Behlau, M. (2014). Voxmetria (3.3.). CTS informática.
Belletti, A. (2018). Valor Cuadrático Medio o RMS. SCRIBD.
Boersma, P. (2009, October 10). Should Jitter Be Measured by Peak Picking or by Waveform Matching? Folia Phoniatrica et Logopaedica
Boersma, P., & Weenink, D. (2011). Praat (6.1.52).
Camacho, C. (2007). COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON. In CORRELACIÓN LINEAL DE PEARSON.
Centre for speech technology. (2019). WaveSurfer (1.8.8). speech.kth.se.
Cerda, J., & Cifuentes, L. (2012). Uso de curvas ROC en investigación clínica. Aspectos teórico-prácticos. Revista Chilena de Infectología.
Clavbo, B. (2006). Method and device for speech analysis (Patent No. US7092874).
instname:Universidad Antonio Nariño
reponame:Repositorio Institucional UAN
repourl:https://repositorio.uan.edu.co/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv Acceso abierto
dc.rights.license.spa.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
Acceso abierto
https://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.coverage.spatial.spa.fl_str_mv Colombia (Popayán, Cauca )
dc.publisher.spa.fl_str_mv Universidad Antonio Nariño
dc.publisher.program.spa.fl_str_mv Ingeniería Biomédica
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería Mecánica, Electrónica y Biomédica
dc.publisher.campus.spa.fl_str_mv Popayán - Alto Cauca
institution Universidad Antonio Nariño
bitstream.url.fl_str_mv https://repositorio.uan.edu.co/bitstreams/76e4102f-3089-441e-8b72-2c966812cfa4/download
https://repositorio.uan.edu.co/bitstreams/7ac8b8da-2b32-45a4-830c-49b9ff5d82ba/download
https://repositorio.uan.edu.co/bitstreams/1a6356ac-ee1a-489b-8793-b01a132c1533/download
https://repositorio.uan.edu.co/bitstreams/db02b892-9482-4fed-b964-abde9fa4b9ab/download
bitstream.checksum.fl_str_mv 0a09840eed08369ac7087cfbbe1b03f0
33293a73e4004227ee3a1192375bca72
adb7ab3a49773d107d963a17eef23ba0
9868ccc48a14c8d591352b6eaf7f6239
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional UAN
repository.mail.fl_str_mv alertas.repositorio@uan.edu.co
_version_ 1814300431501754368
spelling Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)Acceso abiertohttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Villamarín Muñoz, Julián AntonioRuano Bolaños, Jesús AndrésAlegría Cardona, Cristian David2056171265520561713335Colombia (Popayán, Cauca )2022-02-21T13:47:45Z2022-02-21T13:47:45Z2021-11-26http://repositorio.uan.edu.co/handle/123456789/5963Aguilar, H., & Vélez Julia. (2016). Relación entre las pruebas aerodinámicas de la fonación con la escala GRBAS para alertar riesgo de disodeas en cantantes en formación de la Universidad del Valle, Santiago de Cali - 2016. Universidad del Valle.Barrios, J. (2019, July 26). La matriz de confusión y sus métricas. Health Big Data.Behlau, M. (2014). Voxmetria (3.3.). CTS informática.Belletti, A. (2018). Valor Cuadrático Medio o RMS. SCRIBD.Boersma, P. (2009, October 10). Should Jitter Be Measured by Peak Picking or by Waveform Matching? Folia Phoniatrica et LogopaedicaBoersma, P., & Weenink, D. (2011). Praat (6.1.52).Camacho, C. (2007). COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON. In CORRELACIÓN LINEAL DE PEARSON.Centre for speech technology. (2019). WaveSurfer (1.8.8). speech.kth.se.Cerda, J., & Cifuentes, L. (2012). Uso de curvas ROC en investigación clínica. Aspectos teórico-prácticos. Revista Chilena de Infectología.Clavbo, B. (2006). Method and device for speech analysis (Patent No. US7092874).instname:Universidad Antonio Nariñoreponame:Repositorio Institucional UANrepourl:https://repositorio.uan.edu.co/Voice quality analysis has become a routine activity in clinics and hospitals, where they are performed by voice professionals (speech therapists); These analyses are generally performed based on the GRBAS scale, and present subjective characteristics highly influenced by experience, level of education of staff, among others (Gordillo, 2018). For this project, the database of synthetic voices developed by the Antonio Nariño University was implemented through the Evaper application, with the purpose of developing a computational tool for the evaluation of voice quality, through the extraction of both acoustic and statistical vocal characteristics, and the implementation of machine learning systems to give a respective diagnosis based on the GRBAS scale. As a first result, it was found that the algorithm in charge of performing the extraction of vocal features presented a strong level of correlation with respect to the Praat software, software that was considered as a standard system due to its very significant trajectory in the field of speech therapy; reaching a Spearman rho correlation > 0.85, thus validating the algorithm dedicated to the extraction of features, and the implemented methodological process. As a second result, it was found that the classification models implemented in this project presented a high level of accuracy, with the exception of one of the parameters of the female gender (Roughness), due to the existence of an error in the database, since it presented a lack of information for this gender; the results obtained in percentage scale of the level of accuracy of the models that make up the tool are: Hoarseness Models for male gender =71.2% , Tension Asthenia Models for male gender = 84.8% , Tension Asthenia Models for male gender = 93.3%, Grade Models for male gender = 93.6%, Hoarseness Models for female gender = 40.5% , Tension Asthenia Models for female gender = 90.5% , Tension Asthenia Models for female gender = 97.7%, Grade Models for female gender = 95.3%. As a last result, after performing a preliminary preview of phase 2, which consisted of evaluating the performance of the tool implemented 10 real voices provided by the Universidad del Valle, low levels of accuracy and correlation were obtained, being these values equal to: Accuracy <= 50% and -0,2 < Correlation <= 0,5. The results obtained through the evaluation of the models developed with synthetic voices, allowed validating the performance of the computational tool, however, the results after performing the preliminary preview, despite not being very significant due to the low amount of data, showed that it is necessary to carry out an analysis of the tool in order to make the appropriate modifications to improve the effectiveness of its operation when implemented with real voices.El análisis de la calidad de voz se ha convertido en una actividad rutinaria en clínicas y hospitales, donde son realizadas por profesionales de la voz (logopedas); estos análisis generalmente se realizan con base en la escala GRBAS, y presentan características subjetivas altamente influenciadas por la experiencia, nivel de educación del personal, entre otros (Gordillo, 2018). Para este proyecto se implementó la base de datos de voces sintéticas desarrollada por la Universidad Antonio Nariño por medio de la aplicación Evaper, con el propósito de desarrollar una herramienta computacional para la evaluación de la calidad de voz, mediante la extracción de características vocales tanto acústicas como estadísticas, y la implementación de sistemas de machine learning para dar un respectivo diagnóstico con base en la escala GRBAS. Como primer resultado se encontró que el algoritmo encargado de realizar la extracción de las características vocales presentó un fuerte nivel de correlación con respecto al software Praat, software que se consideró como sistema estándar debido a su muy significativa trayectoria en el campo de la logopedia; llegando a obtener una correlación de Spearman rho > 0.85, validando de esta manera el algoritmo dedicado a la extracción de características y el proceso metodológico implementado. Como segundo resultado, se encontró que los modelos de clasificación implementados en este proyecto presentaron un alto nivel de exactitud, a excepción de uno de los parámetros del género femenino (Ronquera), debido a la existencia de un error en la base de datos, ya que presentaba una falta de información para este género; los resultados obtenidos en escala porcentual del nivel de exactitud de los modelos que conforman la herramienta son: Modelos de Ronquera para género masculino =71,2% , Modelos de Soplosidad para género masculino = 84,8% , Modelos de Astenia Tensión para género masculino = 93,3%, Modelos de Grado para género masculino = 93,6%, Modelos de Ronquera para género femenino = 40,5% , Modelos de Soplosidad para género femenino = 90,5% , Modelos de Astenia Tensión para género femenino = 97,7%, Modelos de Grado para género femenino = 95,3%. Como último resultado, fruto de realizar un avance preliminar de la fase 2, la cual consistió en evaluar el desempeño de la herramienta implementando 10 voces reales proporcionada por la Universidad del Valle, se obtuvieron bajos niveles de exactitud y correlación, siendo estos valores iguales a: Exactitud <= 50% y -0,2 < Correlación <= 0,5. Los resultados obtenidos mediante la evaluación de los modelos desarrollados con voces sintéticas, permitieron validar el funcionamiento de la herramienta computacional, sin embargo, los resultados tras realizar el avance preliminar, a pesar de no ser muy significativos por la baja cantidad de datos, demostraron que es necesario llevar a cabo un análisis de la herramienta con el fin de realizar las modificaciones pertinentes que mejoren la eficacia en su funcionamiento al momento de implementarla con voces reales.Ingeniero(a) Biomédico(a)PregradoPresencialMonografíaspaUniversidad Antonio NariñoIngeniería BiomédicaFacultad de Ingeniería Mecánica, Electrónica y BiomédicaPopayán - Alto CaucaSubjetividadMachine learningProcesamiento de señalesGRBASCalidad vocalHerramienta computacionalSubjectivityComputational toolVocal qualityGRBASSignal processingMachine learningDesarrollo de una herramienta computacional para la evaluación de la calidad de voz con base en la escala GRBASTrabajo de grado (Pregrado y/o Especialización)http://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85GeneralORIGINAL2021_JesúsRuano2021_JesúsRuanoapplication/pdf5311269https://repositorio.uan.edu.co/bitstreams/76e4102f-3089-441e-8b72-2c966812cfa4/download0a09840eed08369ac7087cfbbe1b03f0MD512021_JesúsRuano_Acta2021_JesúsRuano_Actaapplication/pdf240515https://repositorio.uan.edu.co/bitstreams/7ac8b8da-2b32-45a4-830c-49b9ff5d82ba/download33293a73e4004227ee3a1192375bca72MD522021_JesúsRuano_Autorización2021_JesúsRuano_Autorizaciónapplication/pdf273400https://repositorio.uan.edu.co/bitstreams/1a6356ac-ee1a-489b-8793-b01a132c1533/downloadadb7ab3a49773d107d963a17eef23ba0MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.uan.edu.co/bitstreams/db02b892-9482-4fed-b964-abde9fa4b9ab/download9868ccc48a14c8d591352b6eaf7f6239MD54123456789/5963oai:repositorio.uan.edu.co:123456789/59632024-10-09 23:22:03.925https://creativecommons.org/licenses/by-nc-nd/4.0/Acceso abiertoopen.accesshttps://repositorio.uan.edu.coRepositorio Institucional UANalertas.repositorio@uan.edu.co