Predicción del comportamiento de compra en tiendas de barrio utilizando modelos de machine learning

El proyecto busca evaluar el comportamiento de compra a nivel local, identificando los productos de la canasta familiar con mayor demanda, la base de datos principal se obtiene de la plataforma Kaggle, la cual contiene registros de compras de productos en 2022 para 217 municipios en 5 departamentos...

Full description

Autores:
Arredondo Parra, Jhon Esteban
Erira Sánchez, Gerson Gabriel
Tipo de recurso:
Tesis
Fecha de publicación:
2025
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/46724
Acceso en línea:
https://hdl.handle.net/10495/46724
Palabra clave:
Aprendizaje automático (inteligencia artificial)
Machine learning
Comercio minorista
Retail trade
Preferencias de los consumidores
Consumers' preferences
Aprendizaje supervisado (aprendizaje automático)
Supervised learning (Machine learning)
ODS 8: Trabajo decente y crecimiento económico. Promover el crecimiento económico sostenido, inclusivo y sostenible, el empleo pleno y productivo y el trabajo decente para todos
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/4.0/
Description
Summary:El proyecto busca evaluar el comportamiento de compra a nivel local, identificando los productos de la canasta familiar con mayor demanda, la base de datos principal se obtiene de la plataforma Kaggle, la cual contiene registros de compras de productos en 2022 para 217 municipios en 5 departamentos de Colombia; fue necesario complementar la base de datos con múltiples fuentes externas (plataforma Kaggle, Dane y Fuente propia) que se describen a lo largo de la monografía. Se pretende implementar modelos de Machine Learning, con el fin de ayudar en la identificación de preferencias y demanda frente a distintas categorías de productos para poder proyectar un comportamiento de consumo. Esto proporcionará información relevante a los establecimientos comerciales para que puedan crear estrategias que les permita entrar en mercados potenciales y mejorar sus ventas. Para la implementación de modelos de regresión, previamente se entrenaron distintos modelos de clasificación de productos en categorías, para alimentar el dataset final de predicción. El mejor modelo de clasificación fue el SVC que alcanza una precisión del 96% en la asignación de categorías. Para la predicción de demanda, se ajustan modelos de regresión tanto de machine learning como de Deep learning, sobre un dataset alimentado con variables socioeconómicas, categorías de productos y dos métodos de imputación distintos. Con el primer método de imputación con ceros, los modelos presentan un RMSE de 6 unidades. Para el segundo caso, se usa interpolación lineal obteniendo métricas de un MAPE cercano al 40% y un RMSE de aproximadamente 16 unidades.