Algorithms to study alternative splicing in genes using microarray data

Antón González, Miguel Ángel

Algorithms to study alternative splicing in genes using microarray data

Antón González, Miguel Ángel

Dirigida por:

Angel Rubio Díaz-Cordovés Director

Universidad de defensa: Universidad de Navarra

Fecha de defensa: 19 de octubre de 2009

Tribunal:

Luis Montuenga Badía Presidente
Francisco Javier Planes Pedreño Secretario
Alberto Pascual Montano Vocal
Roderic Guigó Serra Vocal
Pedro Larrañaga Múgica Vocal

Departamento:

(TECNUN) Ingeniería Biomédica y Ciencias

Tipo: Tesis

Teseo: 107409 DIALNET

Resumen

El Splicing Alternativo (AS) es el proceso mediante el cual un solo gen es capaz de producir múltiples proteínas que pueden tener funcionalidades diferentes o incluso antagónicas. Las cadenas de ARN mensajero (mRNA) capaces de generar las diferentes proteínas a partir de un mismo gen se llaman isoformas de transcritos o simplemente isoformas. El análisis del splicing alternativo específico de una enfermedad y sus consecuencias moleculares pueden utilizarse para encontrar nuevas herramientas de diagnóstico, pronóstico, predicción y terapia. Los microarrays que contienen tanto sondas de exones como de uniones son herramientas prometedoras para el estudio del splicing alternativo. La mayoría de los procedimientos para tratar dichos arrays están centrados en la expresión del gen o los exones. Aunque a los únicos analitos biológicos a los que se les puede asignar correctamente una concentración son los transcritos, hay muy pocos algoritmos que se centren en ellos. Además, la predicción de estructura del gen, es decir la correspondencia entre las sondas de los microarrays y las nuevas isoformas, es un campo casi inexplorado. El propósito de esta tesis es el estudio y desarrollo de algoritmos eficientes para la predicción y la cuantificación de las isoformas alternativas de splicing de los diferentes genes presentes en múltiples experimentos utilizando microarrays. El método completo, denominado SPACE (Predicción de Estructura Y Estimación de la Concentración), utiliza una novedosa técnica llamada Factorización Matricial No-negativa (NMF). Utilizando NMF, SPACE descompone la matriz de medidas de sondas correspondiente a un gen en el producto de dos componentes positivas correspondientes a la estructura de los transcritos del gen y a sus concentraciones individuales, respectivamente. Los objetivos de SPACE son: 1. La predicción de estructura de las isoformas alternativas de splicing que están presentes en los experimentos de microarrays medidos. 2. La cuantificación de las concentraciones de transcriptos en los experimentos estudiados incluidas isoformas desconocidas. En SPACE, la simple descomposición NMF ha sido mejorada desarrollando algoritmos que (1) Estiman el número de transcritos por gen en un conjunto de muestras; (2) Detectan y sustituyen outliers en las medidas de las sondas; (3) Adaptan la matriz de predicción de estructura del gen al modelo de hibridación de las sondas utilizando los grados de libertad de la factorización NMF; (4) Realizan la corrección de estructura predicha utilizando la coherencia con la información sobre la posición de las sondas; y (5) Exploran la no-unicidad de la descomposición NMF. SPACE es capaz de realizar una predicción ciega de la estructura de los transcriptos de un gen y cuantificar sus concentraciones relativas en cada experimento. Los resultados obtenidos tanto con datos simulados de microarrays como con datos reales muestran la robustez y precisión de SPACE. Las simulaciones han sido realizadas para comprobar el funcionamiento de SPACE bajo diferentes condiciones midiendo la Sensibilidad (SN) y Especificidad (SP) de las predicciones de estructura y el porcentaje del Error Medio Absoluto (MAE%) de las concentraciones estimadas de transcritos. SPACE ha sido también aplicado a diferentes datos reales mostrando su efectividad y la concordancia con los resultados de validación utilizando PCR.