Exploratory analysis of IDS ML model training with data generation techniques using the CIC-UNSW-NB15 dataset for cyberattack detection. Trabajo de grado

En esta tesis se encontró que, para evaluar la efectividad de la generación de datos sintéticos, el dataset CIC-UNSW-NB15 IDS puede analizarse en el contexto de un escenario de caja blanca para entrenar un clasificador binario Random Forest. Al disminuir consecutivamente el tamaño del dataset de ent...

Full description

Autores:
Gomez Ospina, Emmanuel
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2025
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
eng
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/46626
Acceso en línea:
https://hdl.handle.net/10495/46626
Palabra clave:
Generative adversarial networks (Computer networks)
IDS (Computer program language)
ML (Computer program language)
DL (Computer program language)
Computer security
Seguridad informática
Traffic Flow
Tráfico
http://id.loc.gov/authorities/subjects/sh2024001883
http://id.loc.gov/authorities/subjects/sh85064184
http://id.loc.gov/authorities/subjects/sh87004533
http://id.loc.gov/authorities/subjects/sh85038672
http://id.loc.gov/authorities/subjects/sh90001862
http://id.loc.gov/authorities/subjects/sh85136769
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/4.0/
Description
Summary:En esta tesis se encontró que, para evaluar la efectividad de la generación de datos sintéticos, el dataset CIC-UNSW-NB15 IDS puede analizarse en el contexto de un escenario de caja blanca para entrenar un clasificador binario Random Forest. Al disminuir consecutivamente el tamaño del dataset de entrenamiento, se comprobó que debía reducirse drásticamente en número de muestras, debido a que el modelo obtuvo un buen desempeño usando datos de una sola columna y el 10% del total de filas. Con el objetivo de poder observar resultados notables tras la adición de datos sintéticos, se estableció una nueva partición base con solo un 0,01% (9 muestras por clase binaria). Luego, bajo estas condiciones de escasez de datos, con un enfoque de modelo de caja blanca fue posible mejorar el rendimiento de un clasificador binario Random Forest, uti- lizando los modelos WGAN-GP y CTGAN, introduciendo muestras sintéticas gener- adas a partir de un pequeño subconjunto de muestras del conjunto de datos CIC-UNSW- NB15 disponible en la división de datos de entrenamiento (9 muestras por clase binaria).