Informe académico del curso manejo de grandes volúmenes de información con Spark, Scala y AWS
Este trabajo presenta un análisis descriptivo del curso “Manejo de grandes volúmenes de información con Spark, Scala y AWS”, enfocado en las herramientas fundamentales para la gestión de datos a gran escala. Se exploran los principales paradigmas de procesamiento distribuido, los lenguajes y framewo...
- Autores:
-
Caro Saenz, Carlos Andres
Castro Ochoa, Sebastian
- Tipo de recurso:
- Informe
- Fecha de publicación:
- 2025
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/46248
- Acceso en línea:
- https://hdl.handle.net/10495/46248
- Palabra clave:
- Big data
Datos masivos
Scala (Computer program language)
Análisis de datos
Data analysis
AWS
Hadoop
http://id.loc.gov/authorities/subjects/sh2012003227
http://id.loc.gov/authorities/subjects/sh2010013203
http://vocabularies.unesco.org/thesaurus/concept2214
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-sa/4.0/
| Summary: | Este trabajo presenta un análisis descriptivo del curso “Manejo de grandes volúmenes de información con Spark, Scala y AWS”, enfocado en las herramientas fundamentales para la gestión de datos a gran escala. Se exploran los principales paradigmas de procesamiento distribuido, los lenguajes y frameworks más utilizados como PySpark, Scala y scrapy, así como las técnicas comunes para la extracción y transformación de datos. Además, se analizan las ventajas del uso de servicios en la nube para la creación y gestión de clústeres de procesamiento Big Data, con especial énfasis en la integración de soluciones ofrecidas por Amazon Web Services (AWS), incluyendo EC2, S3 y EMR. Este enfoque permite comprender cómo estas tecnologías se complementan para construir soluciones escalables, eficientes y adaptadas a las necesidades actuales del análisis de datos. |
|---|
