Analysis of non-coding RNA

  1. Muniategui Merino, Ander
Dirigida por:
  1. Angel Rubio Díaz-Cordovés Director
  2. Francisco Javier Planes Pedreño Codirector

Universidad de defensa: Universidad de Navarra

Fecha de defensa: 19 de noviembre de 2013

Tribunal:
  1. Rubén Pío Osés Presidente
  2. Francisco Javier Novo Villaverde Secretario
  3. Ana Maria Aransay Bañares Vocal
  4. Alberto Pascual Montano Vocal
  5. Matthew Trotter Vocal
Departamento:
  1. (TECNUN) Ingeniería Biomédica y Ciencias

Tipo: Tesis

Teseo: 116338 DIALNET

Resumen

El tema principal de la tesis es el análisis de datos transcriptómicos y está dividida en dos partes. La primera de ellas trata de la búsqueda de interacciones miRNA-mRNA mientras que la segunda se centra en la determinación de las estructuras y concentraciones de transcritos partiendo de datos de RNA-Seq. Los miRNA son pequeños oligonucleótidos de aproximadamente unos 22 nucleótidos de longitud. Estos pequeños RNAs regulan la expresión génica, mayoritariamente por degradación del mRNA. Alteraciones en las regulaciones de los microRNAs se han relacionadon con diferentes enfermedades. A lo largo de los últimos años se han ido desarrollando varios métodos de búsqueda de interacciones que se basan en datos como: la complementariedad de secuencia, las energías de unión del sistema, la estructura del mRNA y la conservación entre varias especies de la secuencia del 3¿UTR al que se une el miRNA. Las predicciones de los algoritmos desarrollados se incorporaron en diferentes bases de datos. Paralelamente se han ido desarrollando métodos experimentales de detección de interacciones miRNA-mRNA. Y a su vez, estas interacciones validadas, se han incorporado a diferentes bases de datos. Las listas de interacciones predichas por métodos computacionales suelen tener muchos falsos positivos. En los últimos años se han ido desarrollando nuevos algoritmos con el objetivo de reducir el número de falsos positivos empleando datos de expresiones de miRNAs y mRNAs. En esta tesis indicamos cómo la mayoría de los métodos desarrollados se pueden reducir, a modelos lineales regularizados. En esta tesis se ha desarrollado un nuevo método de filtrado de interacciones miRNA-mRNA basado en LASSO con restricciones de no negatividad. Los resultados obtenidos con TaLasso indican que las interacciones recuperadas con este método están más enriquecidas en interacciones validadas experimentalmente y que tienen mayor relevancia biológica. La mayoría de los métodos de filtrado de listas de interacciones considera una matriz indicativa de ceros y unos para representar las relaciones miRNA-mRNA putativas. Sin embargo, en cada una de las bases de datos de interacciones se indica el grado de fiabilidad de cada interacción que viene representado por un score. Incluir estos datos en los métodos de filtrado podría servir para mejorar los resultados de los métodos de filtrado de interacciones. A su vez, en esta tesis se ha desarrollado un modelo matemático basado en regresión logística, denominado LRS (Logistic Regression Scoring) para combinar diferentes bases de datos. Los resultados obtenidos muestran que este método devuelve una lista combinada que es mejor que cada una de las listas por separado. En la última parte de la tesis se describe el nuevo método matemático que hemos desarrollado, llamado MIPRNA, para la búsqueda de isoformas y sus concentraciones partiendo de datos de RNA-Seq. Este método está basado en Programación Entera Mixta. La mayoría de los algoritmos desarrollados hasta ahora, se basan en Splicing Graphs para determinar. MIPRNA sin embargo, emplea restricciones matemáticas para introducir la información estructural de las reads en el modelo. Esto supone una gran ventaja porque permite añadir la información de paired-end y long reads, que no es posible incorporarla empleando Splicing Graphs. MIPRNA se ha comparado con Cufflinks. Las comparaciones se han realizado a nivel de cuantificación de la expresión de los transcritos. Para ello, se han generado reads artificiales empleando el programa flux-simulator y se han lanzado MIPRNA y Cufflinks forzándolos a que únicamente cuantifiquen las isoformas anotadas en Ensembl. Los resultados obtenidos con cada uno de los métodos se han comparado después con las concentraciones iniciales asumidas por flux-simulator. Las correlaciones muestran que MIPRNA cuantifica mejor las estructuras que Cufflinks.