Análisis automatizado de Dominios ancestrales asociados al sistema inmune en cordados basales dentro de un contexto evolutivo

Esta tesis tiene como objetivo la construcción de un flujo automatizado de trabajo que integre diferentes procesos, la información de bases de datos y los modelos computacionales requeridos para identificar dominios asociados al Sistema Inmune (SI) presente en los tunicados que se conoce como un rep...

Full description

Autores:
Ceron Noriega, Camilo Alejandro
Tipo de recurso:
Fecha de publicación:
2018
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/63102
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/63102
http://bdigital.unal.edu.co/63166/
Palabra clave:
0 Generalidades / Computer science, information and general works
5 Ciencias naturales y matemáticas / Science
57 Ciencias de la vida; Biología / Life sciences; biology
Dominios
Sistema Inmune
Sistema Inmune Innato
Tunicados
Anotacion de Genes
Ganancia y Pérdida
Domains Gain and losses
Inmune System
Innate Inmune System
Tunicates
Gene annotation
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:Esta tesis tiene como objetivo la construcción de un flujo automatizado de trabajo que integre diferentes procesos, la información de bases de datos y los modelos computacionales requeridos para identificar dominios asociados al Sistema Inmune (SI) presente en los tunicados que se conoce como un repertorio de genes principalmente asociado al Sistema Inmune Innato(SII). La importancia bioinformática de este trabajo se fundamenta en la necesidad de reconstruir un modelo de ganancia y perdida de dominios del SI en los tunicados bajo una aproximación de procesos automatizados aplicados sobre los genomas de algunas especies. Como grupo cercano a los vertebrados el screening promete revelar información de interés sobre la evolución del SI debido a que los tunicados se encuentran justo antes del bigbang inmunológico que es un proceso que se considera dio origen a la complejidad del Sistema Inmune Adaptativo. Por tanto desde el punto de vista de la rama de la bioinformática de anotación de genes, este trabajo propone una alternativa para la reconstrucción de regiones codificantes en especies no modelo que carecen de información de datos de expresión centrada en homología de dominios. La mayoria de las herramientas disponibles en anotación son altamente dependientes de la información transcriptómica o proteómica aunque existen métodos ab initio que se fudamentan en la búsqueda de señales propias de las secuencias de los genes procariotes y eucariotes. Por otro lado, en particular, la anotación de los genes del Sistema Inmune tampoco es sencilla ya que se debe atacar el problema computacional de identificar homología entre secuencias que pueden estar cargadas de ganancia, perdida y rearreglos de dominios. Es por esto que se propone en este trabajo esta estrategia que combina arquitecturas de dominios canónicos de genes del SII para una eficiente detección de dominios ultraconservados entre las especies de estudio. La estrategia se diseña con el fin identificar tractos de dominios en especies de tunicados que carecen de datos de transcriptómica o proteómica y por tanto se propone un modelo de identificación de posibles regiones genomicas putativas asociadas a codificar para dominios del SII en el genoma borrador de una especie carente de anotación y de datos de expresión como el tunicado Didemnum vexillum Finalmente, se implementa un modelo evolutivo de ganancia y perdida de dominios ultraconservados de genes putativos del SII. Dicha pipeline fue aplicada sobre la totalidad de los genomas de cinco especies de tunicados y de un grupo externo conformado por un cefalocordado y dos vertebrados. Las características de los genomas evaluados durante esta tesis, en especial la de los tunicados, representaron retos computacionales importantes de tres tipos: primero genomas con peculiares historias evolutivas, segundo para algunas de estas especies los ensambles de los genomas se encuentran altamente fragmentados y como no son todos ellos organismos modelo no cuentan con información experimental amplia que permita entrenar y utilizar programas de anotación de genes ampliamente usados en Cordados como la pipeline de Ensembl y tercero existe complejidad en la arquitectura génica de los genes del SI ya que en ellos se presentan duplicaciones de dominios, rearreglos de los mismos y perdidas. Estos problemas fueron resueltos en el Capítulo 1 mediante un análisis focalizado en el amplio repertorio de la arquitectura de genes existentes en dos bases de datos principales InnateDB y Insect Innate Immunity Database (IIID) usado para definir un sistema de dominios ``Gold Standard'' sobre las especies articuladas en el Ensembl usando BioMart para ser mapeados sobre las especies Ciona intestinalis, Ciona savignyi, Petromyzon marinus, Latimeria chalumnae y Danio rerio logrando así identificar el conjunto de dominios del SII de cordados inferiores. Posteriormente para las especies de tunicados Oikopleura dioica y Botryllus schlosseri y el protocordado Branchiostoma floridaeo que carecen de anotación de la pipeline del Ensembl se usaron las secuencias de sus proteínas reportadas, como blancos para la identificación de dominios canónicos asociados al SII previamente establecido. En el capitulo 2 se presenta la estrategia utilizada para identificar dominios en especies que carecen de evidencia experimental de expresión y anotación como el tunicado D. vexillum. Esta restricción en el número de dominios evaluados permitió de forma rápida, precisa y eficiente establecer conjuntos de dominios con arquitecturas proteicas similares a las reportadas en la literatura, siendo éstas el punto de partida para la búsqueda de relaciones de homología, principalmente de ortología y paralogía y de un modelo de ganancias y perdidas de dominios ultraconservados del SII descrito en el Capítulo 3.