Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks
In this project, the transformation and cleaning of the dataset “Confirmed COVID19 Cases in Bogotá D.C.” from the Bogotá Open Data source are addressed. These processes are guided by the application of capability areas established by DAMADMBOK. The process focuses on applying best practices to impro...
- Autores:
-
Moreno Zuluaga, Jhon Alexander
- Tipo de recurso:
- Tesis
- Fecha de publicación:
- 2024
- Institución:
- Universidad Antonio Nariño
- Repositorio:
- Repositorio UAN
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uan.edu.co:123456789/12139
- Acceso en línea:
- https://repositorio.uan.edu.co/handle/123456789/12139
- Palabra clave:
- Gobierno de datos
Análisis de datos
Databricks
ETL
Integración
Interoperabilidad
Data Governance
Data Analysis
ETL
Integration
Interoperability
Databrick
- Rights
- openAccess
- License
- Attribution-NonCommercial-NoDerivs 2.5 Colombia
| id |
UAntonioN2_92c02d15a2ddfe821e4649756abcab3d |
|---|---|
| oai_identifier_str |
oai:repositorio.uan.edu.co:123456789/12139 |
| network_acronym_str |
UAntonioN2 |
| network_name_str |
Repositorio UAN |
| repository_id_str |
|
| dc.title.none.fl_str_mv |
Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
| title |
Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
| spellingShingle |
Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks Gobierno de datos Análisis de datos Databricks ETL Integración Interoperabilidad Data Governance Data Analysis ETL Integration Interoperability Databrick |
| title_short |
Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
| title_full |
Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
| title_fullStr |
Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
| title_full_unstemmed |
Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
| title_sort |
Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
| dc.creator.fl_str_mv |
Moreno Zuluaga, Jhon Alexander |
| dc.contributor.advisor.none.fl_str_mv |
Cables Pérez, Elio Higinio, Elio H. |
| dc.contributor.author.none.fl_str_mv |
Moreno Zuluaga, Jhon Alexander |
| dc.subject.none.fl_str_mv |
Gobierno de datos Análisis de datos Databricks ETL Integración Interoperabilidad |
| topic |
Gobierno de datos Análisis de datos Databricks ETL Integración Interoperabilidad Data Governance Data Analysis ETL Integration Interoperability Databrick |
| dc.subject.keyword.none.fl_str_mv |
Data Governance Data Analysis ETL Integration Interoperability Databrick |
| description |
In this project, the transformation and cleaning of the dataset “Confirmed COVID19 Cases in Bogotá D.C.” from the Bogotá Open Data source are addressed. These processes are guided by the application of capability areas established by DAMADMBOK. The process focuses on applying best practices to improve quality and organization, facilitating analysis and ensuring access to information through the Databricks tool, where the development of a workflow will guide the applicability in the project with ETL processes and the implementation of best practices in data governance. The applicability of this project also extends to the use of the Databricks tool, demonstrating its capacity and scalability in data integration and interoperability processes, as well as in data analysis. |
| publishDate |
2024 |
| dc.date.created.none.fl_str_mv |
2024-11-26 |
| dc.date.accessioned.none.fl_str_mv |
2025-01-27T17:26:20Z |
| dc.date.available.none.fl_str_mv |
2025-01-27T17:26:20Z |
| dc.date.issued.none.fl_str_mv |
2025-01-27 |
| dc.type.none.fl_str_mv |
Tesis/Trabajo de grado - Monografía - Especialización |
| dc.type.document.none.fl_str_mv |
Estudio explicativo |
| dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_46ec |
| dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/PIC |
| dc.type.coarversion.none.fl_str_mv |
http://purl.org/coar/version/c_b1a7d7d4d402bcce |
| format |
http://purl.org/coar/resource_type/c_46ec |
| dc.identifier.uri.none.fl_str_mv |
https://repositorio.uan.edu.co/handle/123456789/12139 |
| url |
https://repositorio.uan.edu.co/handle/123456789/12139 |
| dc.language.iso.fl_str_mv |
spa |
| language |
spa |
| dc.rights.en.fl_str_mv |
Attribution-NonCommercial-NoDerivs 2.5 Colombia |
| dc.rights.uri.none.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
| dc.rights.accessrights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.coar.none.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 2.5 Colombia http://creativecommons.org/licenses/by-nc-nd/2.5/co/ http://purl.org/coar/access_right/c_abf2 |
| eu_rights_str_mv |
openAccess |
| dc.format.medium.none.fl_str_mv |
pdf |
| dc.publisher.none.fl_str_mv |
Universidad Antonio Nariño |
| dc.publisher.program.none.fl_str_mv |
Especialización en Gobierno de Datos |
| dc.publisher.faculty.none.fl_str_mv |
Facultad de Ingeniería de Sistemas |
| dc.publisher.campus.none.fl_str_mv |
Bogotá - Federmán |
| publisher.none.fl_str_mv |
Universidad Antonio Nariño |
| dc.source.none.fl_str_mv |
instname:Universidad Antonio Nariño |
| instname_str |
Universidad Antonio Nariño |
| institution |
Universidad Antonio Nariño |
| dc.source.bibliographicCitation.none.fl_str_mv |
Sierra Caicedo, C. C. (2023). Aplicativo web para la optimización de precios de partes vehiculares en la empresa Derco SAS basado en servicio Azure Databricks. Kalla, D., Samaah, F., Kuraku, S., & Smith, N. (2023). Phishing detection implementation using databricks and artificial Intelligence. International Journal of Computer Applications, 185(11), 1-11. Parwani, K., Das, S., Mittal, S., & Raj, R. (2024). Scalable machine learning with Databricks: Challenges and opportunities. Journal of Analysis and Computation (JAC), 18(2), 17-19. Koppula, R. S. (2022). Implementing data lakes with Databricks for advanced analytics. North American Journal of Engineering and Research, 3(2), abril - junio 2022. Gartner, Inc. (2024). Magic Quadrant for Data Science and Machine Learning Platforms. Afraz Jaffri, Aura Popa, Peter Krensky, Jim Hare, Raghvender Bhati, Maryam Hassanlou, & Tong Zhang. (ID G00799982, 17 de junio de 2024). Gartner. (GEL. (s.f.). Programa del Gobierno en Línea de la República de Colombia. Investigación Lineamientos para la implementación de Datos Abiertos en Colombia. Septiembre de 2011.) Sunlight Foundation. (n.d.). Guía de datos abiertos. https://sunlightfoundation.com/opendataguidelines/es/ Databricks. (n.d.-a). Delta Lake. https://docs.databricks.com/en/delta/index.html Databricks. (n.d.-b). Introduction to Databricks. https://docs.databricks.com/en/introduction/index.html Microsoft. (n.d.-a). What is Azure?. https://azure.microsoft.com/enus/resources/cloud-computing-dictionary/what-isazure/#:~:text=What%20is%20Azure%3F%20The%20Azure%20cloud%20platform %20is,with%20the%20tools%20and%20frameworks%20of%20your%20choice.?mso ckid=34538b825e3664bb106099325f9965aa |
| bitstream.url.fl_str_mv |
https://repositorio.uan.edu.co/bitstreams/fd9bf5e7-e9b7-4a8a-af75-40bd539eaf62/download https://repositorio.uan.edu.co/bitstreams/f5b9bfe1-d35d-431e-9dc2-3effb5df3ae2/download https://repositorio.uan.edu.co/bitstreams/dc58cb1e-55ca-42b4-b0d6-1808e4daacbb/download https://repositorio.uan.edu.co/bitstreams/62cb07c9-fe7f-4f5c-b78c-44d4bc185228/download |
| bitstream.checksum.fl_str_mv |
217700a34da79ed616c2feb68d4c5e06 3451b3725db8527b1fbfb55c2cdcc350 72716cde877a1becb470c800a74ed1cf a293bcabb74a33f075970915a43e57c4 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio Institucional UAN |
| repository.mail.fl_str_mv |
alertas.repositorio@uan.edu.co |
| _version_ |
1851059440982163456 |
| spelling |
Cables Pérez, Elio Higinio, Elio H.Moreno Zuluaga, Jhon Alexander2025-01-27T17:26:20Z2025-01-27T17:26:20Z2024-11-262025-01-27https://repositorio.uan.edu.co/handle/123456789/12139In this project, the transformation and cleaning of the dataset “Confirmed COVID19 Cases in Bogotá D.C.” from the Bogotá Open Data source are addressed. These processes are guided by the application of capability areas established by DAMADMBOK. The process focuses on applying best practices to improve quality and organization, facilitating analysis and ensuring access to information through the Databricks tool, where the development of a workflow will guide the applicability in the project with ETL processes and the implementation of best practices in data governance. The applicability of this project also extends to the use of the Databricks tool, demonstrating its capacity and scalability in data integration and interoperability processes, as well as in data analysis.En este proyecto se abordan la transformación y limpieza del set de datos “Casos confirmados de COVID-19 en Bogotá D.C.” de la fuente datos abiertos Bogotá, estos procesos están acompañados de la guía y aplicación de las áreas de capacidad establecidas por el DAMA-DMBOK. El proceso se centra en poder mejorar resultados en calidad y organización, así mismo facilitar el análisis y garantizar el acceso a la información a través de la herramienta Databricks, dónde el desarrollo de un flujo de trabajo conducirá la aplicabilidad en el proyecto con procesos ETL y la aplicación de buenas prácticas en la gobernanza de datos. La aplicabilidad de este proyecto también es objetiva al uso de la herramienta databricks, para demostrar la capacidad y escalabilidad frente a procesos de integración e interoperabilidad de datos e igualmente al análisis de datos.finalEspecialista en Gobierno de DatosEspecializaciónPresencialProyectopdfUniversidad Antonio NariñoEspecialización en Gobierno de DatosFacultad de Ingeniería de SistemasBogotá - FedermánAttribution-NonCommercial-NoDerivs 2.5 Colombiahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2instname:Universidad Antonio NariñoSierra Caicedo, C. C. (2023). Aplicativo web para la optimización de precios de partes vehiculares en la empresa Derco SAS basado en servicio Azure Databricks.Kalla, D., Samaah, F., Kuraku, S., & Smith, N. (2023). Phishing detection implementation using databricks and artificial Intelligence. International Journal of Computer Applications, 185(11), 1-11.Parwani, K., Das, S., Mittal, S., & Raj, R. (2024). Scalable machine learning with Databricks: Challenges and opportunities. Journal of Analysis and Computation (JAC), 18(2), 17-19.Koppula, R. S. (2022). Implementing data lakes with Databricks for advanced analytics. North American Journal of Engineering and Research, 3(2), abril - junio 2022.Gartner, Inc. (2024). Magic Quadrant for Data Science and Machine Learning Platforms. Afraz Jaffri, Aura Popa, Peter Krensky, Jim Hare, Raghvender Bhati, Maryam Hassanlou, & Tong Zhang. (ID G00799982, 17 de junio de 2024). Gartner.(GEL. (s.f.). Programa del Gobierno en Línea de la República de Colombia. Investigación Lineamientos para la implementación de Datos Abiertos en Colombia. Septiembre de 2011.)Sunlight Foundation. (n.d.). Guía de datos abiertos. https://sunlightfoundation.com/opendataguidelines/es/Databricks. (n.d.-a). Delta Lake. https://docs.databricks.com/en/delta/index.htmlDatabricks. (n.d.-b). Introduction to Databricks. https://docs.databricks.com/en/introduction/index.htmlMicrosoft. (n.d.-a). What is Azure?. https://azure.microsoft.com/enus/resources/cloud-computing-dictionary/what-isazure/#:~:text=What%20is%20Azure%3F%20The%20Azure%20cloud%20platform %20is,with%20the%20tools%20and%20frameworks%20of%20your%20choice.?mso ckid=34538b825e3664bb106099325f9965aaGobierno de datosAnálisis de datosDatabricksETLIntegraciónInteroperabilidadData GovernanceData AnalysisETLIntegrationInteroperabilityDatabrickFlujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta DatabricksTesis/Trabajo de grado - Monografía - EspecializaciónEstudio explicativohttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/PIChttp://purl.org/coar/version/c_b1a7d7d4d402bcceEspecializadaspaCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.uan.edu.co/bitstreams/fd9bf5e7-e9b7-4a8a-af75-40bd539eaf62/download217700a34da79ed616c2feb68d4c5e06MD51ORIGINAL2024_JhonAlexanderMorenoZuluaga.pdf2024_JhonAlexanderMorenoZuluaga.pdfTrabajo de gradoapplication/pdf1880293https://repositorio.uan.edu.co/bitstreams/f5b9bfe1-d35d-431e-9dc2-3effb5df3ae2/download3451b3725db8527b1fbfb55c2cdcc350MD522024_JhonAlexanderMorenoZuluaga_Autorización.pdf2024_JhonAlexanderMorenoZuluaga_Autorización.pdfAutorizaciónapplication/pdf223600https://repositorio.uan.edu.co/bitstreams/dc58cb1e-55ca-42b4-b0d6-1808e4daacbb/download72716cde877a1becb470c800a74ed1cfMD532024_JhonAlexanderMorenoZuluaga_Acta.pdf2024_JhonAlexanderMorenoZuluaga_Acta.pdfActaapplication/pdf2693385https://repositorio.uan.edu.co/bitstreams/62cb07c9-fe7f-4f5c-b78c-44d4bc185228/downloada293bcabb74a33f075970915a43e57c4MD54123456789/12139oai:repositorio.uan.edu.co:123456789/121392025-01-27 17:26:24.019http://creativecommons.org/licenses/by-nc-nd/2.5/co/Attribution-NonCommercial-NoDerivs 2.5 Colombiaopen.accesshttps://repositorio.uan.edu.coRepositorio Institucional UANalertas.repositorio@uan.edu.co |
