Evaluación de un nuevo esquema de codificación de secuencias de ADN basado en propiedades fisicoquímicas en modelos de Deep Learning

En el análisis computacional de secuencias genómicas, la forma en que se representan los datos de ADN influye directamente en la capacidad predictiva de los modelos de aprendizaje profundo. Este trabajo evaluó comparativamente el impacto de tres enfoques de representación (k-mers, codificación one-h...

Full description

Autores:
Sánchez Aristizabal, Daniela
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2025
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/48049
Acceso en línea:
https://hdl.handle.net/10495/48049
Palabra clave:
Análisis de Secuencia de ADN
Sequence Analysis, DNA
Aprendizaje Profundo
Deep Learning
Aprendizaje Automático
Machine Learning
Aprendizaje Profundo
Deep Learning
Propiedades fisicoquímicas
Chemicophysical properties
Red nerviosa
Neural networks (Neurobiology)
Representación de secuencias ADN
Rendimiento computacional
Clasificación taxonómica
Genómica computacional
Redes neuronales
Rendimiento computacional
Splicing
https://id.nlm.nih.gov/mesh/D017422
https://id.nlm.nih.gov/mesh/D000077321
https://id.nlm.nih.gov/mesh/D000069550
https://id.nlm.nih.gov/mesh/D000077321
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/4.0/
Description
Summary:En el análisis computacional de secuencias genómicas, la forma en que se representan los datos de ADN influye directamente en la capacidad predictiva de los modelos de aprendizaje profundo. Este trabajo evaluó comparativamente el impacto de tres enfoques de representación (k-mers, codificación one-hot y codificación basada en propiedades fisicoquímicas de los nucleótidos) sobre el rendimiento de distintos modelos de aprendizaje profundo, en tres tareas relevantes de la biología molecular: predicción de sitios de splicing, identificación de sitios de unión al ADN y clasificación taxonómica. Las arquitecturas empleadas incluyeron desde redes convolucionales simples hasta modelos con capas LSTM bidireccionales, variaciones en la regularización y profundidad, lo que permitió analizar el desempeño de cada representación en función del nivel de complejidad del modelo. Los resultados obtenidos indican que no existe una representación universalmente superior, sino que su efectividad está condicionada tanto por la naturaleza de la tarea como por la arquitectura utilizada. Las representaciones basadas en propiedades fisicoquímicas mostraron un desempeño destacable en tareas que dependen de señales funcionales locales y contexto estructural, como la predicción de sitios de splicing. Por otro lado, representaciones como los k-mers, que capturan patrones secuenciales conservados, resultaron más efectivas en tareas globales como la clasificación taxonómica. Además, se identificaron propiedades fisicoquímicas con valor predictivo transversal, como la hidrofobicidad (XLogP3) y la capacidad de aceptar puentes de hidrógeno, lo que refuerza su relevancia en diversas interacciones moleculares. Estos hallazgos ofrecen una visión integral sobre cómo el tipo de representación interactúa con la arquitectura del modelo y el contexto biológico, y aportan criterios clave para seleccionar codificaciones más adecuadas según el problema a abordar. De esta manera, esta tesis contribuye con herramientas conceptuales y metodológicas aplicables al desarrollo de sistemas predictivos más eficientes y ajustados a diversas tareas bioinformáticas que involucren secuencias de ADN.