Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks

In this project, the transformation and cleaning of the dataset “Confirmed COVID19 Cases in Bogotá D.C.” from the Bogotá Open Data source are addressed. These processes are guided by the application of capability areas established by DAMADMBOK. The process focuses on applying best practices to impro...

Full description

Autores:
Moreno Zuluaga, Jhon Alexander
Tipo de recurso:
Tesis
Fecha de publicación:
2024
Institución:
Universidad Antonio Nariño
Repositorio:
Repositorio UAN
Idioma:
spa
OAI Identifier:
oai:repositorio.uan.edu.co:123456789/12139
Acceso en línea:
https://repositorio.uan.edu.co/handle/123456789/12139
Palabra clave:
Gobierno de datos
Análisis de datos
Databricks
ETL
Integración
Interoperabilidad
Data Governance
Data Analysis
ETL
Integration
Interoperability
Databrick
Rights
openAccess
License
Attribution-NonCommercial-NoDerivs 2.5 Colombia
id UAntonioN2_92c02d15a2ddfe821e4649756abcab3d
oai_identifier_str oai:repositorio.uan.edu.co:123456789/12139
network_acronym_str UAntonioN2
network_name_str Repositorio UAN
repository_id_str
dc.title.none.fl_str_mv Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks
title Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks
spellingShingle Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks
Gobierno de datos
Análisis de datos
Databricks
ETL
Integración
Interoperabilidad
Data Governance
Data Analysis
ETL
Integration
Interoperability
Databrick
title_short Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks
title_full Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks
title_fullStr Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks
title_full_unstemmed Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks
title_sort Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks
dc.creator.fl_str_mv Moreno Zuluaga, Jhon Alexander
dc.contributor.advisor.none.fl_str_mv Cables Pérez, Elio Higinio, Elio H.
dc.contributor.author.none.fl_str_mv Moreno Zuluaga, Jhon Alexander
dc.subject.none.fl_str_mv Gobierno de datos
Análisis de datos
Databricks
ETL
Integración
Interoperabilidad
topic Gobierno de datos
Análisis de datos
Databricks
ETL
Integración
Interoperabilidad
Data Governance
Data Analysis
ETL
Integration
Interoperability
Databrick
dc.subject.keyword.none.fl_str_mv Data Governance
Data Analysis
ETL
Integration
Interoperability
Databrick
description In this project, the transformation and cleaning of the dataset “Confirmed COVID19 Cases in Bogotá D.C.” from the Bogotá Open Data source are addressed. These processes are guided by the application of capability areas established by DAMADMBOK. The process focuses on applying best practices to improve quality and organization, facilitating analysis and ensuring access to information through the Databricks tool, where the development of a workflow will guide the applicability in the project with ETL processes and the implementation of best practices in data governance. The applicability of this project also extends to the use of the Databricks tool, demonstrating its capacity and scalability in data integration and interoperability processes, as well as in data analysis.
publishDate 2024
dc.date.created.none.fl_str_mv 2024-11-26
dc.date.accessioned.none.fl_str_mv 2025-01-27T17:26:20Z
dc.date.available.none.fl_str_mv 2025-01-27T17:26:20Z
dc.date.issued.none.fl_str_mv 2025-01-27
dc.type.none.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
dc.type.document.none.fl_str_mv Estudio explicativo
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/PIC
dc.type.coarversion.none.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
format http://purl.org/coar/resource_type/c_46ec
dc.identifier.uri.none.fl_str_mv https://repositorio.uan.edu.co/handle/123456789/12139
url https://repositorio.uan.edu.co/handle/123456789/12139
dc.language.iso.fl_str_mv spa
language spa
dc.rights.en.fl_str_mv Attribution-NonCommercial-NoDerivs 2.5 Colombia
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 2.5 Colombia
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.medium.none.fl_str_mv pdf
dc.publisher.none.fl_str_mv Universidad Antonio Nariño
dc.publisher.program.none.fl_str_mv Especialización en Gobierno de Datos
dc.publisher.faculty.none.fl_str_mv Facultad de Ingeniería de Sistemas
dc.publisher.campus.none.fl_str_mv Bogotá - Federmán
publisher.none.fl_str_mv Universidad Antonio Nariño
dc.source.none.fl_str_mv instname:Universidad Antonio Nariño
instname_str Universidad Antonio Nariño
institution Universidad Antonio Nariño
dc.source.bibliographicCitation.none.fl_str_mv Sierra Caicedo, C. C. (2023). Aplicativo web para la optimización de precios de partes vehiculares en la empresa Derco SAS basado en servicio Azure Databricks.
Kalla, D., Samaah, F., Kuraku, S., & Smith, N. (2023). Phishing detection implementation using databricks and artificial Intelligence. International Journal of Computer Applications, 185(11), 1-11.
Parwani, K., Das, S., Mittal, S., & Raj, R. (2024). Scalable machine learning with Databricks: Challenges and opportunities. Journal of Analysis and Computation (JAC), 18(2), 17-19.
Koppula, R. S. (2022). Implementing data lakes with Databricks for advanced analytics. North American Journal of Engineering and Research, 3(2), abril - junio 2022.
Gartner, Inc. (2024). Magic Quadrant for Data Science and Machine Learning Platforms. Afraz Jaffri, Aura Popa, Peter Krensky, Jim Hare, Raghvender Bhati, Maryam Hassanlou, & Tong Zhang. (ID G00799982, 17 de junio de 2024). Gartner.
(GEL. (s.f.). Programa del Gobierno en Línea de la República de Colombia. Investigación Lineamientos para la implementación de Datos Abiertos en Colombia. Septiembre de 2011.)
Sunlight Foundation. (n.d.). Guía de datos abiertos. https://sunlightfoundation.com/opendataguidelines/es/
Databricks. (n.d.-a). Delta Lake. https://docs.databricks.com/en/delta/index.html
Databricks. (n.d.-b). Introduction to Databricks. https://docs.databricks.com/en/introduction/index.html
Microsoft. (n.d.-a). What is Azure?. https://azure.microsoft.com/enus/resources/cloud-computing-dictionary/what-isazure/#:~:text=What%20is%20Azure%3F%20The%20Azure%20cloud%20platform %20is,with%20the%20tools%20and%20frameworks%20of%20your%20choice.?mso ckid=34538b825e3664bb106099325f9965aa
bitstream.url.fl_str_mv https://repositorio.uan.edu.co/bitstreams/fd9bf5e7-e9b7-4a8a-af75-40bd539eaf62/download
https://repositorio.uan.edu.co/bitstreams/f5b9bfe1-d35d-431e-9dc2-3effb5df3ae2/download
https://repositorio.uan.edu.co/bitstreams/dc58cb1e-55ca-42b4-b0d6-1808e4daacbb/download
https://repositorio.uan.edu.co/bitstreams/62cb07c9-fe7f-4f5c-b78c-44d4bc185228/download
bitstream.checksum.fl_str_mv 217700a34da79ed616c2feb68d4c5e06
3451b3725db8527b1fbfb55c2cdcc350
72716cde877a1becb470c800a74ed1cf
a293bcabb74a33f075970915a43e57c4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional UAN
repository.mail.fl_str_mv alertas.repositorio@uan.edu.co
_version_ 1851059440982163456
spelling Cables Pérez, Elio Higinio, Elio H.Moreno Zuluaga, Jhon Alexander2025-01-27T17:26:20Z2025-01-27T17:26:20Z2024-11-262025-01-27https://repositorio.uan.edu.co/handle/123456789/12139In this project, the transformation and cleaning of the dataset “Confirmed COVID19 Cases in Bogotá D.C.” from the Bogotá Open Data source are addressed. These processes are guided by the application of capability areas established by DAMADMBOK. The process focuses on applying best practices to improve quality and organization, facilitating analysis and ensuring access to information through the Databricks tool, where the development of a workflow will guide the applicability in the project with ETL processes and the implementation of best practices in data governance. The applicability of this project also extends to the use of the Databricks tool, demonstrating its capacity and scalability in data integration and interoperability processes, as well as in data analysis.En este proyecto se abordan la transformación y limpieza del set de datos “Casos confirmados de COVID-19 en Bogotá D.C.” de la fuente datos abiertos Bogotá, estos procesos están acompañados de la guía y aplicación de las áreas de capacidad establecidas por el DAMA-DMBOK. El proceso se centra en poder mejorar resultados en calidad y organización, así mismo facilitar el análisis y garantizar el acceso a la información a través de la herramienta Databricks, dónde el desarrollo de un flujo de trabajo conducirá la aplicabilidad en el proyecto con procesos ETL y la aplicación de buenas prácticas en la gobernanza de datos. La aplicabilidad de este proyecto también es objetiva al uso de la herramienta databricks, para demostrar la capacidad y escalabilidad frente a procesos de integración e interoperabilidad de datos e igualmente al análisis de datos.finalEspecialista en Gobierno de DatosEspecializaciónPresencialProyectopdfUniversidad Antonio NariñoEspecialización en Gobierno de DatosFacultad de Ingeniería de SistemasBogotá - FedermánAttribution-NonCommercial-NoDerivs 2.5 Colombiahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2instname:Universidad Antonio NariñoSierra Caicedo, C. C. (2023). Aplicativo web para la optimización de precios de partes vehiculares en la empresa Derco SAS basado en servicio Azure Databricks.Kalla, D., Samaah, F., Kuraku, S., & Smith, N. (2023). Phishing detection implementation using databricks and artificial Intelligence. International Journal of Computer Applications, 185(11), 1-11.Parwani, K., Das, S., Mittal, S., & Raj, R. (2024). Scalable machine learning with Databricks: Challenges and opportunities. Journal of Analysis and Computation (JAC), 18(2), 17-19.Koppula, R. S. (2022). Implementing data lakes with Databricks for advanced analytics. North American Journal of Engineering and Research, 3(2), abril - junio 2022.Gartner, Inc. (2024). Magic Quadrant for Data Science and Machine Learning Platforms. Afraz Jaffri, Aura Popa, Peter Krensky, Jim Hare, Raghvender Bhati, Maryam Hassanlou, & Tong Zhang. (ID G00799982, 17 de junio de 2024). Gartner.(GEL. (s.f.). Programa del Gobierno en Línea de la República de Colombia. Investigación Lineamientos para la implementación de Datos Abiertos en Colombia. Septiembre de 2011.)Sunlight Foundation. (n.d.). Guía de datos abiertos. https://sunlightfoundation.com/opendataguidelines/es/Databricks. (n.d.-a). Delta Lake. https://docs.databricks.com/en/delta/index.htmlDatabricks. (n.d.-b). Introduction to Databricks. https://docs.databricks.com/en/introduction/index.htmlMicrosoft. (n.d.-a). What is Azure?. https://azure.microsoft.com/enus/resources/cloud-computing-dictionary/what-isazure/#:~:text=What%20is%20Azure%3F%20The%20Azure%20cloud%20platform %20is,with%20the%20tools%20and%20frameworks%20of%20your%20choice.?mso ckid=34538b825e3664bb106099325f9965aaGobierno de datosAnálisis de datosDatabricksETLIntegraciónInteroperabilidadData GovernanceData AnalysisETLIntegrationInteroperabilityDatabrickFlujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta DatabricksTesis/Trabajo de grado - Monografía - EspecializaciónEstudio explicativohttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/PIChttp://purl.org/coar/version/c_b1a7d7d4d402bcceEspecializadaspaCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.uan.edu.co/bitstreams/fd9bf5e7-e9b7-4a8a-af75-40bd539eaf62/download217700a34da79ed616c2feb68d4c5e06MD51ORIGINAL2024_JhonAlexanderMorenoZuluaga.pdf2024_JhonAlexanderMorenoZuluaga.pdfTrabajo de gradoapplication/pdf1880293https://repositorio.uan.edu.co/bitstreams/f5b9bfe1-d35d-431e-9dc2-3effb5df3ae2/download3451b3725db8527b1fbfb55c2cdcc350MD522024_JhonAlexanderMorenoZuluaga_Autorización.pdf2024_JhonAlexanderMorenoZuluaga_Autorización.pdfAutorizaciónapplication/pdf223600https://repositorio.uan.edu.co/bitstreams/dc58cb1e-55ca-42b4-b0d6-1808e4daacbb/download72716cde877a1becb470c800a74ed1cfMD532024_JhonAlexanderMorenoZuluaga_Acta.pdf2024_JhonAlexanderMorenoZuluaga_Acta.pdfActaapplication/pdf2693385https://repositorio.uan.edu.co/bitstreams/62cb07c9-fe7f-4f5c-b78c-44d4bc185228/downloada293bcabb74a33f075970915a43e57c4MD54123456789/12139oai:repositorio.uan.edu.co:123456789/121392025-01-27 17:26:24.019http://creativecommons.org/licenses/by-nc-nd/2.5/co/Attribution-NonCommercial-NoDerivs 2.5 Colombiaopen.accesshttps://repositorio.uan.edu.coRepositorio Institucional UANalertas.repositorio@uan.edu.co