Informe académico del curso manejo de grandes volúmenes de información con Spark, Scala y AWS

Este trabajo presenta un análisis descriptivo del curso “Manejo de grandes volúmenes de información con Spark, Scala y AWS”, enfocado en las herramientas fundamentales para la gestión de datos a gran escala. Se exploran los principales paradigmas de procesamiento distribuido, los lenguajes y framewo...

Full description

Autores:
Caro Saenz, Carlos Andres
Castro Ochoa, Sebastian
Tipo de recurso:
Informe
Fecha de publicación:
2025
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/46248
Acceso en línea:
https://hdl.handle.net/10495/46248
Palabra clave:
Big data
Datos masivos
Scala (Computer program language)
Análisis de datos
Data analysis
AWS
Hadoop
http://id.loc.gov/authorities/subjects/sh2012003227
http://id.loc.gov/authorities/subjects/sh2010013203
http://vocabularies.unesco.org/thesaurus/concept2214
Rights
openAccess
License
http://creativecommons.org/licenses/by-sa/4.0/
Description
Summary:Este trabajo presenta un análisis descriptivo del curso “Manejo de grandes volúmenes de información con Spark, Scala y AWS”, enfocado en las herramientas fundamentales para la gestión de datos a gran escala. Se exploran los principales paradigmas de procesamiento distribuido, los lenguajes y frameworks más utilizados como PySpark, Scala y scrapy, así como las técnicas comunes para la extracción y transformación de datos. Además, se analizan las ventajas del uso de servicios en la nube para la creación y gestión de clústeres de procesamiento Big Data, con especial énfasis en la integración de soluciones ofrecidas por Amazon Web Services (AWS), incluyendo EC2, S3 y EMR. Este enfoque permite comprender cómo estas tecnologías se complementan para construir soluciones escalables, eficientes y adaptadas a las necesidades actuales del análisis de datos.