¿Cómo puede contribuir el Machine Learning a la focalización de programas sociales?. Modelo XGBoost para la determinación de pobreza monetaria interpretado mediante Shap Values: Caso Colombia 2019-2020

La implementación de programas de ayuda social ha sido la principal estrategia llevada a cabo por los gobiernos latinoamericanos para mitigar el impacto de la pobreza y el desempleo. Estos programas incluyen subsidios y transferencias de recursos condicionadas que buscan mejorar la situación económi...

Full description

Autores:
Galvis Caballero, Ángel
Tipo de recurso:
Fecha de publicación:
2021
Institución:
Universidad Autónoma de Bucaramanga - UNAB
Repositorio:
Repositorio UNAB
Idioma:
spa
OAI Identifier:
oai:repository.unab.edu.co:20.500.12749/16448
Acceso en línea:
http://hdl.handle.net/20.500.12749/16448
Palabra clave:
Economic development
Economy
Economic analysis
Proxy means tests
Machine learning
Interpretable machine learning
Methods Assembly and Shap values
Artificial intelligence
Machine theory
Explanation-Based Learning
Análisis económico
Economía
Desarrollo económico
Inteligencia artificial
Teoría de las máquinas
Aprendizaje basado en explicaciones
Pruebas de medios proxy
Aprendizaje automático
Aprendizaje automático interpretable
Métodos valores de ensamble y Shap
Rights
License
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
id UNAB2_7a225ae3347754888f537393c9718268
oai_identifier_str oai:repository.unab.edu.co:20.500.12749/16448
network_acronym_str UNAB2
network_name_str Repositorio UNAB
repository_id_str
dc.title.spa.fl_str_mv ¿Cómo puede contribuir el Machine Learning a la focalización de programas sociales?. Modelo XGBoost para la determinación de pobreza monetaria interpretado mediante Shap Values: Caso Colombia 2019-2020
dc.title.translated.spa.fl_str_mv How can Machine Learning contribute to the targeting of social programs? XGBoost model for determining monetary poverty interpreted through Shap Values: Colombia case 2019-2020
title ¿Cómo puede contribuir el Machine Learning a la focalización de programas sociales?. Modelo XGBoost para la determinación de pobreza monetaria interpretado mediante Shap Values: Caso Colombia 2019-2020
spellingShingle ¿Cómo puede contribuir el Machine Learning a la focalización de programas sociales?. Modelo XGBoost para la determinación de pobreza monetaria interpretado mediante Shap Values: Caso Colombia 2019-2020
Economic development
Economy
Economic analysis
Proxy means tests
Machine learning
Interpretable machine learning
Methods Assembly and Shap values
Artificial intelligence
Machine theory
Explanation-Based Learning
Análisis económico
Economía
Desarrollo económico
Inteligencia artificial
Teoría de las máquinas
Aprendizaje basado en explicaciones
Pruebas de medios proxy
Aprendizaje automático
Aprendizaje automático interpretable
Métodos valores de ensamble y Shap
title_short ¿Cómo puede contribuir el Machine Learning a la focalización de programas sociales?. Modelo XGBoost para la determinación de pobreza monetaria interpretado mediante Shap Values: Caso Colombia 2019-2020
title_full ¿Cómo puede contribuir el Machine Learning a la focalización de programas sociales?. Modelo XGBoost para la determinación de pobreza monetaria interpretado mediante Shap Values: Caso Colombia 2019-2020
title_fullStr ¿Cómo puede contribuir el Machine Learning a la focalización de programas sociales?. Modelo XGBoost para la determinación de pobreza monetaria interpretado mediante Shap Values: Caso Colombia 2019-2020
title_full_unstemmed ¿Cómo puede contribuir el Machine Learning a la focalización de programas sociales?. Modelo XGBoost para la determinación de pobreza monetaria interpretado mediante Shap Values: Caso Colombia 2019-2020
title_sort ¿Cómo puede contribuir el Machine Learning a la focalización de programas sociales?. Modelo XGBoost para la determinación de pobreza monetaria interpretado mediante Shap Values: Caso Colombia 2019-2020
dc.creator.fl_str_mv Galvis Caballero, Ángel
dc.contributor.advisor.none.fl_str_mv Castro Aristizábal, Geovanny
dc.contributor.author.none.fl_str_mv Galvis Caballero, Ángel
dc.contributor.cvlac.spa.fl_str_mv Castro Aristizábal, Geovanny [0000530735]
dc.contributor.googlescholar.spa.fl_str_mv Castro Aristizábal, Geovanny [uWUdeZ8AAAAJ]
dc.contributor.orcid.none.fl_str_mv Castro Aristizábal, Geovanny [0000-0002-3567-983X]
dc.contributor.researchgate.none.fl_str_mv Castro Aristizábal, Geovanny [Geovanny-Castro-Aristizabal-2]
dc.contributor.linkedin.none.fl_str_mv Castro Aristizábal, Geovanny [geovanny-castro-aristizabal-21589968]
dc.subject.keywords.spa.fl_str_mv Economic development
Economy
Economic analysis
Proxy means tests
Machine learning
Interpretable machine learning
Methods Assembly and Shap values
Artificial intelligence
Machine theory
Explanation-Based Learning
topic Economic development
Economy
Economic analysis
Proxy means tests
Machine learning
Interpretable machine learning
Methods Assembly and Shap values
Artificial intelligence
Machine theory
Explanation-Based Learning
Análisis económico
Economía
Desarrollo económico
Inteligencia artificial
Teoría de las máquinas
Aprendizaje basado en explicaciones
Pruebas de medios proxy
Aprendizaje automático
Aprendizaje automático interpretable
Métodos valores de ensamble y Shap
dc.subject.lemb.spa.fl_str_mv Análisis económico
Economía
Desarrollo económico
Inteligencia artificial
Teoría de las máquinas
Aprendizaje basado en explicaciones
dc.subject.proposal.spa.fl_str_mv Pruebas de medios proxy
Aprendizaje automático
Aprendizaje automático interpretable
Métodos valores de ensamble y Shap
description La implementación de programas de ayuda social ha sido la principal estrategia llevada a cabo por los gobiernos latinoamericanos para mitigar el impacto de la pobreza y el desempleo. Estos programas incluyen subsidios y transferencias de recursos condicionadas que buscan mejorar la situación económica de los hogares fomentado: la permanencia educativa, el acceso a la salud, la obtención de vivienda, la adquisición de una canasta básica de alimentos, etc. Debido a que estos programas tienen presupuestos limitados se han diseñado métodos para enfocar la inversión pública en poblaciones específicas, por ejemplo: los hogares cuyos ingresos son menores a la línea de pobreza monetaria. En el presente trabajo se utiliza el modelo de machine learning conocido como XGBoost (Chen, T., 2016) para predecir diferentes condiciones económicas en individuos. Entre estas, el nivel de ingresos, la condición de pobreza y la situación desempleo, a partir de características como: el genero, el número de personas en el hogar, los años de educación, las características de la vivienda, los bienes y posesiones, el estrato socioeconómico, entre otras. Permitiendo establecer un proxy que determine si cumplen con condiciones de acceso para ser beneficiarios potenciales programas sociales. El desempeño del modelo es satisfactorio en la estimación de ingresos, presentando errores de inclusión del 23% al 27%, que son inferiores a los presentados por el agregado de ayudas institucionales a nivel Colombia que se estimó en un rango de error entre el 51.8% al 58%. Por último, se aplicó la técnica Shap (SHapley Additive exPlanations) (Lundberg, S. 2017) para explicar la forma en la que se correlacionan las características que se utilizaron en los modelos predictivos y el índice de ingresos. Esto facilita proponer una aplicación de este tipo de técnica como soporte para la operación de programas sociales focalizados, pues permite que la toma de decisiones basada en algoritmos sea más transparente y auditable.
publishDate 2021
dc.date.issued.none.fl_str_mv 2021
dc.date.accessioned.none.fl_str_mv 2022-05-17T19:57:44Z
dc.date.available.none.fl_str_mv 2022-05-17T19:57:44Z
dc.type.eng.fl_str_mv Thesis
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.local.spa.fl_str_mv Tesis
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12749/16448
dc.identifier.instname.spa.fl_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional UNAB
dc.identifier.repourl.spa.fl_str_mv repourl:https://repository.unab.edu.co
url http://hdl.handle.net/20.500.12749/16448
identifier_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
reponame:Repositorio Institucional UNAB
repourl:https://repository.unab.edu.co
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.references.spa.fl_str_mv A. M. Nalla Gounden. “Investment in Education in India.” The Journal of Human Resources 2, no. 3 (1967): 347–58. https://doi.org/10.2307/144839.
Banco Mundial. (14 de Octubre 2021). Pobreza: panorama general. https://www.bancomundial.org/es/topic/poverty/overview#1
Banco Mundial. (s.f., accedido el 1 de diciembre de 2021). Desempleo a nivel global. Organización Internacional del Trabajo, base de datos sobre estadísticas de la Organización Internacional del Trabajo (OIT). https://datos.bancomundial.org/indicator/SL.UEM.TOTL.ZS
Blofield, M. & Filgueira, F. (2020). COVID19 and Latin America: Social Impact, Policies and a Fiscal Case for an Emergency Social Protection Floor. CIPPEC Policy Brief
Brown, C., Ravallion, M., & van de Walle, D. (2018). A poor means test? Econometric targeting in Africa. Journal of Development Economics, 134, 109-124. https://doi.org/10.1016/j.jdeveco.2018.05.004.
Cecchini, S., & Madariaga, A. (2011). Conditional cash transfer programmes: The recent experience in Latin America and the Caribbean (First edition). United Nations, ECLAC.
Chen, T., & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794. https://doi.org/10.1145/2939672.2939785.
Del Boca, D., Pronzato, C., & Sorrenti, G. (2021). Conditional cash transfer programs and household labor supply. European Economic Review, 136, 103755. https://doi.org/10.1016/j.euroecorev.2021.103755.
Del Ninno, C., Mills, B. (2015). Safety Nets in Africa : Effective Mechanisms to Reach the Poor and Most Vulnerable. Africa Development Forum. Washington, DC: World Bank; and Agence Française de Développement. World Bank. https://openknowledge.worldbank.org/handle/10986/21369.
Departamento de Economía y Asuntos Sociales Naciones Unidas. (1 de noviembre de 2021). World Economic Situation And Prospects: November 2021 Briefing, No. 155. https://www.un.org/development/desa/dpad/publication/world-economic-situationand-prospects-november-2021-briefing-no-155/.
Departamento Administrativo Nacional de Estadística (DANE). (s.f., accedido 1 de diciembre de 2021). Estadísticas mercado laboral. https://www.dane.gov.co/index.php/estadisticas-por-tema/mercado-laboral.
Departamento de Prosperidad Social del Gobierno Nacional, Colombia. (s.f. accedido 1 de diciembre de 2021). https://www.monteria.gov.co/publicaciones/82/programafamilias-en-accion/.
Dershem, Larry. (2013). Using a Proxy Means Test for Targeting in a Conditional Cash Transfer Program.
Embarec, R. (2020). Aprendizaje Automático aplicado al sector hotelero, Machine Learning applied to Hotel Industry, La Laguna, 11 de septiembre de 2020, trabajo de fin de grado. https://riull.ull.es/xmlui/bitstream/handle/915/21338/Aprendizaje%20Automatico% 20aplicado%20al%20sector%20hotelero.pdf?sequence=1.
García, S., & Saavedra, J. E. (2017). Educational Impacts and Cost-Effectiveness of Conditional Cash Transfer Programs in Developing Countries: A Meta-Analysis. Review of Educational Research, 87(5), 921-965. https://doi.org/10.3102/0034654317723008.
Graham, C. (1995). Margaret E. Grosh, Administering Targeted Social Programs in Latin America: From Platitudes to Practice (Washington, D.C.: The World Bank, Regional and Sectorial Studies, 1994), pp. ix + 174, $10.95. Journal of Latin American Studies, 27(1), 280-281. https://doi.org/10.1017/S0022216X00010713
Gerszon-Mahler, D. Banco Mundial. (24 de Junio 2021). Updated estimates of the impact of COVID-19 on global poverty: Turning the corner on the pandemic in 2021? https://blogs.worldbank.org/opendata/updated-estimates-impact-covid-19-globalpoverty-turning-corner-pandemic-2021.
Grimes, M., & Wängnerud, L. (2010). Curbing Corruption Through Social Welfare Reform? The Effects of Mexico’s Conditional Cash Transfer Program on Good Government. The American Review of Public Administration, 40(6), 671-690. https://doi.org/10.1177/0275074009359025.
Grisales R, Hugo, & Arbeláez M, María P. (2008). Metodología para el diseño de un índice de condiciones de vida para los adolescentes jóvenes. Revista Facultad Nacional de Salud Pública, 26(2), 178-195. Retrieved January 23, 2022, http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120- 386X2008000200009&lng=en&tlng=es.
Grosh, M. E., & Baker, J. L. (1995). Proxy means tests for targeting social programs: Simulations and speculation. The World Bank. https://doi.org/10.1596/0-8213-3313- 5
Houssou, N. & Zeller, M. (2007). Proxy Means Tests for Targeting the Poorest Households -- Applications to Uganda, RePEc.
Jacob Mincer. (1970). The Distribution of Labor Incomes: A Survey With Special Reference to the Human Capital Approach. Journal of Economic Literature, 8(1), 1–26. http://www.jstor.org/stable/2720384
Kidd, S., Gelders, B., & Bailey-Athias, D. (2017) Organización internacional del trabajo. Decent work for sustainable development (DW4SD) Resource Platform. https://www.ilo.org/global/topics/dw4sd/WCMS_568678/lang--en/index.htm.
Kidd, S. (2013). Rethinking "Targeting" in International Development - Pathways Perspectives. Issue 11.
Kidd, S., Gelders, B., & Diloá Bailey-Athias. (2017). Exclusion by design: An assessment of the effectiveness of the proxy means test poverty targeting mechanism. https://doi.org/10.13140/RG.2.2.36802.68805.
Kidd, S. & Wylde, E. (2011). Targeting the Poorest: An assessment of the proxy means test methodology AusAID.
Londoño-Vélez, J., & Querubín, P. (2021). The Impact of Emergency Cash Assistance in a Pandemic: Experimental Evidence from Colombia. The Review of Economics and Statistics, 1-27. https://doi.org/10.1162/rest_a_01043
Lundberg, S., & Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions. arXiv:1705.07874 [cs, stat]. http://arxiv.org/abs/1705.07874.
Machado, D. B., Rodrigues, L. C., Rasella, D., Lima Barreto, M., & Araya, R. (2018). Conditional cash transfer programme: Impact on homicide rates and hospitalisations from violence in Brazil. PLOS ONE, 13(12), e0208925. https://doi.org/10.1371/journal.pone.0208925.
Microsoft. (s.f., accedido el 1 de diciembre de 2021). SMOTE. https://docs.microsoft.com/es-es/azure/machine-learning/componentreference/smote
McBridea, L., & Nicholsb, A.R. (2015). Improved poverty targeting through machine learning: An application to the USAID Poverty Assessment Tools. http://www.econthatmatters.com/wpcontent/uploads/2015/01/improvedtargeting_21jan2015.pdf
Mincer, J. (1958). Investment in Human Capital and Personal Income Distribution. Journal of Political Economy, 66(4), 281-302. https://doi.org/10.1086/258055.
Mincer, J. (1962). On-the-Job Training: Costs, Returns, and Some Implications. Journal of Political Economy, 70(5, Part 2), 50-79. https://doi.org/10.1086/258725.
Mincer, J. (1965). [Review of The Economic Value of Education; Economic Aspects of Education: Three Essays; External Benefits of Public Education: An Economic Analysis, by T. W. Schultz, W. G. Bowen, & B. A. Weisbrod]. The American Economic Review, 55(3), 637–640. http://www.jstor.org/stable/1814619.
Nicola, M., Alsafi, Z., Sohrabi, C., Kerwan, A., Al-Jabir, A., Iosifidis, C., Agha, M., & Agha, R. (2020). The socio-economic implications of the coronavirus pandemic (COVID19): A review. International Journal of Surgery, 78, 185-193. https://doi.org/10.1016/j.ijsu.2020.04.018.
Noriega-Campero, A., Garcia-Bulle, B., Cantu, L. F., Bakker, M. A., Tejerina, L., & Pentland, A. (2020). Algorithmic targeting of social policies: Fairness, accuracy, and distributed governance. Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, 241-251. https://doi.org/10.1145/3351095.3375784.
O’Neill, K. (2021). Cash or Conditions? An Analysis of Conditional Cash Transfer Programs (Doctor of Philosophy, Carleton University). https://doi.org/10.22215/etd/2021- 14644.
Parker, S. W., & Todd, P. E. (2017). Conditional Cash Transfers: The Case of Progresa/Oportunidades. Journal of Economic Literature, 55(3), 866-915. https://doi.org/10.1257/jel.20151233.
Psacharopoulos, G. (1972). Rates of Return to Investment in Education around the World. Comparative Education Review, 16(1), 54-67. https://doi.org/10.1086/445569
Rawlings, L. B. (2005). Evaluating the Impact of Conditional Cash Transfer Programs. The World Bank Research Observer, 20(1), 29-55. https://doi.org/10.1093/wbro/lki001.
Schultz, T. W. (1967). The Rate of Return in Allocating Investment Resources to Education. The Journal of Human Resources, 2(3), 293–309. https://doi.org/10.2307/144836.
Sen, A. (1976). Poverty: An Ordinal Approach to Measurement. Econometrica, 44(2), 219– 231. https://doi.org/10.2307/1912718
Sen, A. (1980). “Equality of What?”. In The Tanner Lecture on Human Values, I, 197-220. Cambridge: Cambridge University Press
Sohnesen, T., & Stender, N., (2016). "Is random forest a superior methodology for predicting poverty ? an empirical assessment," Policy Research Working Paper Series 7612, The World Bank. https://ideas.repec.org/p/wbk/wbrwps/7612.html
Sosa-Rubi, S. G., Walker, D., Servan, E., & Bautista-Arredondo, S. (2011). Learning effect of a conditional cash transfer programme on poor rural women’s selection of delivery care in Mexico. Health Policy and Planning, 26(6), 496-507. https://doi.org/10.1093/heapol/czq085.
Uribe G., J. I. (Ed.). (2006). Ensayos de economía aplicada al mercado laboral (1. ed). Programa Editorial, Universidad del Valle.
Uribe J. I., OrtizC. H., & CorreaJ. B. (2009). ¿Cómo deciden los individuos en el mercado laboral? Modelos y estimaciones para Colombia. Lecturas De Economía, 64(64), 59 - 90. https://doi.org/10.17533/udea.le.n64a2650.
Varian, H. R. (2014). Big data: New tricks for econometrics. Journal of Economic Perspectives 28(2), 3–28.
Verme, Paolo, (2020). "Which Model for Poverty Predictions?," GLO Discussion Paper Series 468, Global Labor Organization (GLO).
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.local.spa.fl_str_mv Abierto (Texto Completo)
dc.rights.creativecommons.*.fl_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Abierto (Texto Completo)
Atribución-NoComercial-SinDerivadas 2.5 Colombia
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.coverage.spatial.spa.fl_str_mv Colombia
dc.coverage.temporal.spa.fl_str_mv 2019-2020
dc.coverage.campus.spa.fl_str_mv UNAB Campus Bucaramanga
dc.publisher.grantor.spa.fl_str_mv Universidad Autónoma de Bucaramanga UNAB
dc.publisher.faculty.spa.fl_str_mv Facultad Economía y Negocios
dc.publisher.program.spa.fl_str_mv Maestría en Análisis Económico
institution Universidad Autónoma de Bucaramanga - UNAB
bitstream.url.fl_str_mv https://repository.unab.edu.co/bitstream/20.500.12749/16448/1/2021_Tesis_Angel_Galvis_Caballero.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/16448/3/2022_Licencia_Angel_Galvis_Caballero.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/16448/2/license.txt
https://repository.unab.edu.co/bitstream/20.500.12749/16448/4/2021_Tesis_Angel_Galvis_Caballero.pdf.jpg
https://repository.unab.edu.co/bitstream/20.500.12749/16448/5/2022_Licencia_Angel_Galvis_Caballero.pdf.jpg
bitstream.checksum.fl_str_mv ab960e0656e0c64bfbbf235634d6a281
b2d3f61a0492788f60f7abacf10e46ff
3755c0cfdb77e29f2b9125d7a45dd316
1c0184088803ca52327db319e51e61c2
d1c0ba3571e9490e96abd3957e6bd48a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB
repository.mail.fl_str_mv repositorio@unab.edu.co
_version_ 1828219988645773312
spelling Castro Aristizábal, Geovanny604f46b7-4181-4c11-a8ec-f9bf2e0f0e8dGalvis Caballero, Ángel3f91b58e-3bd1-429f-bfb9-37ed33bbe76dCastro Aristizábal, Geovanny [0000530735]Castro Aristizábal, Geovanny [uWUdeZ8AAAAJ]Castro Aristizábal, Geovanny [0000-0002-3567-983X]Castro Aristizábal, Geovanny [Geovanny-Castro-Aristizabal-2]Castro Aristizábal, Geovanny [geovanny-castro-aristizabal-21589968]Colombia2019-2020UNAB Campus Bucaramanga2022-05-17T19:57:44Z2022-05-17T19:57:44Z2021http://hdl.handle.net/20.500.12749/16448instname:Universidad Autónoma de Bucaramanga - UNABreponame:Repositorio Institucional UNABrepourl:https://repository.unab.edu.coLa implementación de programas de ayuda social ha sido la principal estrategia llevada a cabo por los gobiernos latinoamericanos para mitigar el impacto de la pobreza y el desempleo. Estos programas incluyen subsidios y transferencias de recursos condicionadas que buscan mejorar la situación económica de los hogares fomentado: la permanencia educativa, el acceso a la salud, la obtención de vivienda, la adquisición de una canasta básica de alimentos, etc. Debido a que estos programas tienen presupuestos limitados se han diseñado métodos para enfocar la inversión pública en poblaciones específicas, por ejemplo: los hogares cuyos ingresos son menores a la línea de pobreza monetaria. En el presente trabajo se utiliza el modelo de machine learning conocido como XGBoost (Chen, T., 2016) para predecir diferentes condiciones económicas en individuos. Entre estas, el nivel de ingresos, la condición de pobreza y la situación desempleo, a partir de características como: el genero, el número de personas en el hogar, los años de educación, las características de la vivienda, los bienes y posesiones, el estrato socioeconómico, entre otras. Permitiendo establecer un proxy que determine si cumplen con condiciones de acceso para ser beneficiarios potenciales programas sociales. El desempeño del modelo es satisfactorio en la estimación de ingresos, presentando errores de inclusión del 23% al 27%, que son inferiores a los presentados por el agregado de ayudas institucionales a nivel Colombia que se estimó en un rango de error entre el 51.8% al 58%. Por último, se aplicó la técnica Shap (SHapley Additive exPlanations) (Lundberg, S. 2017) para explicar la forma en la que se correlacionan las características que se utilizaron en los modelos predictivos y el índice de ingresos. Esto facilita proponer una aplicación de este tipo de técnica como soporte para la operación de programas sociales focalizados, pues permite que la toma de decisiones basada en algoritmos sea más transparente y auditable.Tabla de contenidos ............................................................................................................. VI Lista de figuras...................................................................................................................VIII Lista de tablas ........................................................................................................................X Lista de Abreviaturas........................................................................................................... XI Introducción ............................................................................................................................1 Capítulo 1: Planteamiento del problema.................................................................................6 Capítulo 2: Objetivos............................................................................................................15 2.1. Objetivo general....................................................................................................15 2.2. Objetivos específicos. ...........................................................................................15 Capítulo 3: Marco Teórico....................................................................................................16 3.1. Problema general que buscan resolver los proxy means tests...............................17 3.2. ¿Correlación o causalidad? ...................................................................................20 3.3. Tipos de modelos utilizados en los proxy means tests..........................................20 3.3.1. Modelo de regresión lineal................................................................................21 3.3.2. Modelo LASSO. ...............................................................................................22 3.3.3. Proceso general de ajuste de datos....................................................................22 3.3.4. Modelos no paramétricos..................................................................................23 3.4. Métricas utilizadas para la evaluación y comparación de modelos. .....................28 3.5. Conexión entre los modelos de predicción utilizados como proxy means tests y el análisis económico. ...........................................................................................................32 3.5.1. Modelos de predicción aplicados a la determinación de los ingresos y de la condición de pobreza. .......................................................................................................33 3.5.2. Modelos de predicción aplicados a la determinación de la condición laboral..36 Capítulo 4: Estado del Arte...................................................................................................40 Capítulo 5: Metodología. ......................................................................................................52 5.1. Fuentes de datos....................................................................................................52 5.2. Elaboración de las bases de datos. ........................................................................52 5.3. Selección de variables...........................................................................................56 5.3.1. One Hot Encoding.........................................................................................56 5.3.2. Creación de variables cardinales...................................................................57 5.3.3. Creación de variables para imputar características de interés. .....................58 5.3.4. Eliminación de variables espurias y variables altamente correlacionadas....59 VII 5.3.5. Descripción de las variables originales de la base de datos conformada......59 5.3.6. Descripción de las variables dependientes....................................................65 5.3.7. Selección de las variables regresoras para modelos de ingresos y pobreza..67 5.3.8. Selección de las variables independientes para el modelo de desempleo.....72 5.4. Modelamiento. ......................................................................................................73 5.4.1. Modelo I: Regresor del índice de ingresos. ..................................................73 5.4.2. Modelo II: Clasificador de situación pobreza...............................................80 5.4.3. Modelo III: Clasificador situación de desempleo. ........................................84 5.4.4. Métodos computacionales.............................................................................86 5.4.5. Aclaración estadística. ..................................................................................87 Capítulo 6: Resultados y análisis. .........................................................................................89 6.1. Modelo I: Regresor del índice de ingresos. ..........................................................89 6.2. Modelo II: Clasificador de condición de pobreza...............................................116 6.3. Modelo III: Clasificador de situación de desempleo. .........................................119 Conclusiones y recomendaciones .......................................................................................122 Bibliografía .........................................................................................................................125MaestríaThe implementation of social assistance programs has been the main strategy carried out by Latin American governments to mitigate the impact of poverty and unemployment. These programs include subsidies and conditional resource transfers that seek to improve the economic situation of fostered households: staying in education, access to health, obtaining housing, acquiring a basic food basket, etc. Because these programs have limited budgets, methods have been designed to focus public investment on specific populations, for example: households whose income is below the monetary poverty line. In the present work, the machine learning model known as XGBoost (Chen, T., 2016) is used to predict different economic conditions in individuals. Among these, the level of income, the condition of poverty and the unemployment situation, based on characteristics such as: gender, number of people in the household, years of education, characteristics of the home, assets and possessions, socioeconomic status, among others. Allowing the establishment of a proxy that determines if they meet the access conditions to be potential beneficiaries of social programs. The performance of the model is satisfactory in the estimation of income, presenting inclusion errors of 23% to 27%, which are lower than those presented by the aggregate of institutional aid at the Colombian level, which was estimated in an error range between 51.8% at 58%. Finally, the Shap technique (SHapley Additive exPlanations) (Lundberg, S. 2017) was applied to explain the way in which the characteristics used in the predictive models and the income index are correlated. This makes it easier to propose an application of this type of technique as support for the operation of targeted social programs, since it allows decision-making based on algorithms to be more transparent and auditable.Modalidad Presencialapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)Atribución-NoComercial-SinDerivadas 2.5 Colombiahttp://purl.org/coar/access_right/c_abf2¿Cómo puede contribuir el Machine Learning a la focalización de programas sociales?. Modelo XGBoost para la determinación de pobreza monetaria interpretado mediante Shap Values: Caso Colombia 2019-2020How can Machine Learning contribute to the targeting of social programs? XGBoost model for determining monetary poverty interpreted through Shap Values: Colombia case 2019-2020Thesisinfo:eu-repo/semantics/masterThesisTesishttp://purl.org/redcol/resource_type/TMMagíster en Análisis EconómicoUniversidad Autónoma de Bucaramanga UNABFacultad Economía y NegociosMaestría en Análisis EconómicoEconomic developmentEconomyEconomic analysisProxy means testsMachine learningInterpretable machine learningMethods Assembly and Shap valuesArtificial intelligenceMachine theoryExplanation-Based LearningAnálisis económicoEconomíaDesarrollo económicoInteligencia artificialTeoría de las máquinasAprendizaje basado en explicacionesPruebas de medios proxyAprendizaje automáticoAprendizaje automático interpretableMétodos valores de ensamble y ShapA. M. Nalla Gounden. “Investment in Education in India.” The Journal of Human Resources 2, no. 3 (1967): 347–58. https://doi.org/10.2307/144839.Banco Mundial. (14 de Octubre 2021). Pobreza: panorama general. https://www.bancomundial.org/es/topic/poverty/overview#1Banco Mundial. (s.f., accedido el 1 de diciembre de 2021). Desempleo a nivel global. Organización Internacional del Trabajo, base de datos sobre estadísticas de la Organización Internacional del Trabajo (OIT). https://datos.bancomundial.org/indicator/SL.UEM.TOTL.ZSBlofield, M. & Filgueira, F. (2020). COVID19 and Latin America: Social Impact, Policies and a Fiscal Case for an Emergency Social Protection Floor. CIPPEC Policy BriefBrown, C., Ravallion, M., & van de Walle, D. (2018). A poor means test? Econometric targeting in Africa. Journal of Development Economics, 134, 109-124. https://doi.org/10.1016/j.jdeveco.2018.05.004.Cecchini, S., & Madariaga, A. (2011). Conditional cash transfer programmes: The recent experience in Latin America and the Caribbean (First edition). United Nations, ECLAC.Chen, T., & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794. https://doi.org/10.1145/2939672.2939785.Del Boca, D., Pronzato, C., & Sorrenti, G. (2021). Conditional cash transfer programs and household labor supply. European Economic Review, 136, 103755. https://doi.org/10.1016/j.euroecorev.2021.103755.Del Ninno, C., Mills, B. (2015). Safety Nets in Africa : Effective Mechanisms to Reach the Poor and Most Vulnerable. Africa Development Forum. Washington, DC: World Bank; and Agence Française de Développement. World Bank. https://openknowledge.worldbank.org/handle/10986/21369.Departamento de Economía y Asuntos Sociales Naciones Unidas. (1 de noviembre de 2021). World Economic Situation And Prospects: November 2021 Briefing, No. 155. https://www.un.org/development/desa/dpad/publication/world-economic-situationand-prospects-november-2021-briefing-no-155/.Departamento Administrativo Nacional de Estadística (DANE). (s.f., accedido 1 de diciembre de 2021). Estadísticas mercado laboral. https://www.dane.gov.co/index.php/estadisticas-por-tema/mercado-laboral.Departamento de Prosperidad Social del Gobierno Nacional, Colombia. (s.f. accedido 1 de diciembre de 2021). https://www.monteria.gov.co/publicaciones/82/programafamilias-en-accion/.Dershem, Larry. (2013). Using a Proxy Means Test for Targeting in a Conditional Cash Transfer Program.Embarec, R. (2020). Aprendizaje Automático aplicado al sector hotelero, Machine Learning applied to Hotel Industry, La Laguna, 11 de septiembre de 2020, trabajo de fin de grado. https://riull.ull.es/xmlui/bitstream/handle/915/21338/Aprendizaje%20Automatico% 20aplicado%20al%20sector%20hotelero.pdf?sequence=1.García, S., & Saavedra, J. E. (2017). Educational Impacts and Cost-Effectiveness of Conditional Cash Transfer Programs in Developing Countries: A Meta-Analysis. Review of Educational Research, 87(5), 921-965. https://doi.org/10.3102/0034654317723008.Graham, C. (1995). Margaret E. Grosh, Administering Targeted Social Programs in Latin America: From Platitudes to Practice (Washington, D.C.: The World Bank, Regional and Sectorial Studies, 1994), pp. ix + 174, $10.95. Journal of Latin American Studies, 27(1), 280-281. https://doi.org/10.1017/S0022216X00010713Gerszon-Mahler, D. Banco Mundial. (24 de Junio 2021). Updated estimates of the impact of COVID-19 on global poverty: Turning the corner on the pandemic in 2021? https://blogs.worldbank.org/opendata/updated-estimates-impact-covid-19-globalpoverty-turning-corner-pandemic-2021.Grimes, M., & Wängnerud, L. (2010). Curbing Corruption Through Social Welfare Reform? The Effects of Mexico’s Conditional Cash Transfer Program on Good Government. The American Review of Public Administration, 40(6), 671-690. https://doi.org/10.1177/0275074009359025.Grisales R, Hugo, & Arbeláez M, María P. (2008). Metodología para el diseño de un índice de condiciones de vida para los adolescentes jóvenes. Revista Facultad Nacional de Salud Pública, 26(2), 178-195. Retrieved January 23, 2022, http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120- 386X2008000200009&lng=en&tlng=es.Grosh, M. E., & Baker, J. L. (1995). Proxy means tests for targeting social programs: Simulations and speculation. The World Bank. https://doi.org/10.1596/0-8213-3313- 5Houssou, N. & Zeller, M. (2007). Proxy Means Tests for Targeting the Poorest Households -- Applications to Uganda, RePEc.Jacob Mincer. (1970). The Distribution of Labor Incomes: A Survey With Special Reference to the Human Capital Approach. Journal of Economic Literature, 8(1), 1–26. http://www.jstor.org/stable/2720384Kidd, S., Gelders, B., & Bailey-Athias, D. (2017) Organización internacional del trabajo. Decent work for sustainable development (DW4SD) Resource Platform. https://www.ilo.org/global/topics/dw4sd/WCMS_568678/lang--en/index.htm.Kidd, S. (2013). Rethinking "Targeting" in International Development - Pathways Perspectives. Issue 11.Kidd, S., Gelders, B., & Diloá Bailey-Athias. (2017). Exclusion by design: An assessment of the effectiveness of the proxy means test poverty targeting mechanism. https://doi.org/10.13140/RG.2.2.36802.68805.Kidd, S. & Wylde, E. (2011). Targeting the Poorest: An assessment of the proxy means test methodology AusAID.Londoño-Vélez, J., & Querubín, P. (2021). The Impact of Emergency Cash Assistance in a Pandemic: Experimental Evidence from Colombia. The Review of Economics and Statistics, 1-27. https://doi.org/10.1162/rest_a_01043Lundberg, S., & Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions. arXiv:1705.07874 [cs, stat]. http://arxiv.org/abs/1705.07874.Machado, D. B., Rodrigues, L. C., Rasella, D., Lima Barreto, M., & Araya, R. (2018). Conditional cash transfer programme: Impact on homicide rates and hospitalisations from violence in Brazil. PLOS ONE, 13(12), e0208925. https://doi.org/10.1371/journal.pone.0208925.Microsoft. (s.f., accedido el 1 de diciembre de 2021). SMOTE. https://docs.microsoft.com/es-es/azure/machine-learning/componentreference/smoteMcBridea, L., & Nicholsb, A.R. (2015). Improved poverty targeting through machine learning: An application to the USAID Poverty Assessment Tools. http://www.econthatmatters.com/wpcontent/uploads/2015/01/improvedtargeting_21jan2015.pdfMincer, J. (1958). Investment in Human Capital and Personal Income Distribution. Journal of Political Economy, 66(4), 281-302. https://doi.org/10.1086/258055.Mincer, J. (1962). On-the-Job Training: Costs, Returns, and Some Implications. Journal of Political Economy, 70(5, Part 2), 50-79. https://doi.org/10.1086/258725.Mincer, J. (1965). [Review of The Economic Value of Education; Economic Aspects of Education: Three Essays; External Benefits of Public Education: An Economic Analysis, by T. W. Schultz, W. G. Bowen, & B. A. Weisbrod]. The American Economic Review, 55(3), 637–640. http://www.jstor.org/stable/1814619.Nicola, M., Alsafi, Z., Sohrabi, C., Kerwan, A., Al-Jabir, A., Iosifidis, C., Agha, M., & Agha, R. (2020). The socio-economic implications of the coronavirus pandemic (COVID19): A review. International Journal of Surgery, 78, 185-193. https://doi.org/10.1016/j.ijsu.2020.04.018.Noriega-Campero, A., Garcia-Bulle, B., Cantu, L. F., Bakker, M. A., Tejerina, L., & Pentland, A. (2020). Algorithmic targeting of social policies: Fairness, accuracy, and distributed governance. Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, 241-251. https://doi.org/10.1145/3351095.3375784.O’Neill, K. (2021). Cash or Conditions? An Analysis of Conditional Cash Transfer Programs (Doctor of Philosophy, Carleton University). https://doi.org/10.22215/etd/2021- 14644.Parker, S. W., & Todd, P. E. (2017). Conditional Cash Transfers: The Case of Progresa/Oportunidades. Journal of Economic Literature, 55(3), 866-915. https://doi.org/10.1257/jel.20151233.Psacharopoulos, G. (1972). Rates of Return to Investment in Education around the World. Comparative Education Review, 16(1), 54-67. https://doi.org/10.1086/445569Rawlings, L. B. (2005). Evaluating the Impact of Conditional Cash Transfer Programs. The World Bank Research Observer, 20(1), 29-55. https://doi.org/10.1093/wbro/lki001.Schultz, T. W. (1967). The Rate of Return in Allocating Investment Resources to Education. The Journal of Human Resources, 2(3), 293–309. https://doi.org/10.2307/144836.Sen, A. (1976). Poverty: An Ordinal Approach to Measurement. Econometrica, 44(2), 219– 231. https://doi.org/10.2307/1912718Sen, A. (1980). “Equality of What?”. In The Tanner Lecture on Human Values, I, 197-220. Cambridge: Cambridge University PressSohnesen, T., & Stender, N., (2016). "Is random forest a superior methodology for predicting poverty ? an empirical assessment," Policy Research Working Paper Series 7612, The World Bank. https://ideas.repec.org/p/wbk/wbrwps/7612.htmlSosa-Rubi, S. G., Walker, D., Servan, E., & Bautista-Arredondo, S. (2011). Learning effect of a conditional cash transfer programme on poor rural women’s selection of delivery care in Mexico. Health Policy and Planning, 26(6), 496-507. https://doi.org/10.1093/heapol/czq085.Uribe G., J. I. (Ed.). (2006). Ensayos de economía aplicada al mercado laboral (1. ed). Programa Editorial, Universidad del Valle.Uribe J. I., OrtizC. H., & CorreaJ. B. (2009). ¿Cómo deciden los individuos en el mercado laboral? Modelos y estimaciones para Colombia. Lecturas De Economía, 64(64), 59 - 90. https://doi.org/10.17533/udea.le.n64a2650.Varian, H. R. (2014). Big data: New tricks for econometrics. Journal of Economic Perspectives 28(2), 3–28.Verme, Paolo, (2020). "Which Model for Poverty Predictions?," GLO Discussion Paper Series 468, Global Labor Organization (GLO).ORIGINAL2021_Tesis_Angel_Galvis_Caballero.pdf2021_Tesis_Angel_Galvis_Caballero.pdfTesisapplication/pdf3727654https://repository.unab.edu.co/bitstream/20.500.12749/16448/1/2021_Tesis_Angel_Galvis_Caballero.pdfab960e0656e0c64bfbbf235634d6a281MD51open access2022_Licencia_Angel_Galvis_Caballero.pdf2022_Licencia_Angel_Galvis_Caballero.pdfLicenciaapplication/pdf75572https://repository.unab.edu.co/bitstream/20.500.12749/16448/3/2022_Licencia_Angel_Galvis_Caballero.pdfb2d3f61a0492788f60f7abacf10e46ffMD53metadata only accessLICENSElicense.txtlicense.txttext/plain; charset=utf-8829https://repository.unab.edu.co/bitstream/20.500.12749/16448/2/license.txt3755c0cfdb77e29f2b9125d7a45dd316MD52open accessTHUMBNAIL2021_Tesis_Angel_Galvis_Caballero.pdf.jpg2021_Tesis_Angel_Galvis_Caballero.pdf.jpgIM Thumbnailimage/jpeg6272https://repository.unab.edu.co/bitstream/20.500.12749/16448/4/2021_Tesis_Angel_Galvis_Caballero.pdf.jpg1c0184088803ca52327db319e51e61c2MD54open access2022_Licencia_Angel_Galvis_Caballero.pdf.jpg2022_Licencia_Angel_Galvis_Caballero.pdf.jpgIM Thumbnailimage/jpeg9427https://repository.unab.edu.co/bitstream/20.500.12749/16448/5/2022_Licencia_Angel_Galvis_Caballero.pdf.jpgd1c0ba3571e9490e96abd3957e6bd48aMD55metadata only access20.500.12749/16448oai:repository.unab.edu.co:20.500.12749/164482024-01-23 16:57:32.23open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.coRUwoTE9TKSBBVVRPUihFUyksIG1hbmlmaWVzdGEobWFuaWZlc3RhbW9zKSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbi4gRWwgQVVUT1IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVTkFCIGFjdMO6YSBjb21vIHVuIHRlcmNlcm8gZGUgYnVlbmEgZmUuCgpFbCBBVVRPUiBhdXRvcml6YSBhIGxhIFVuaXZlcnNpZGFkIEF1dMOzbm9tYSBkZSBCdWNhcmFtYW5nYSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24uCg==