Algorithms to study alternative splicing in genes using microarray data
- Antón González, Miguel Ángel
- Angel Rubio Díaz-Cordovés Director
Universidad de defensa: Universidad de Navarra
Fecha de defensa: 19 de octubre de 2009
- Luis Montuenga Badía Presidente
- Francisco Javier Planes Pedreño Secretario
- Alberto Pascual Montano Vocal
- Roderic Guigó Serra Vocal
- Pedro Larrañaga Múgica Vocal
Tipo: Tesis
Resumen
El Splicing Alternativo (AS) es el proceso mediante el cual un solo gen es capaz de producir múltiples proteínas que pueden tener funcionalidades diferentes o incluso antagónicas. Las cadenas de ARN mensajero (mRNA) capaces de generar las diferentes proteínas a partir de un mismo gen se llaman isoformas de transcritos o simplemente isoformas. El análisis del splicing alternativo específico de una enfermedad y sus consecuencias moleculares pueden utilizarse para encontrar nuevas herramientas de diagnóstico, pronóstico, predicción y terapia. Los microarrays que contienen tanto sondas de exones como de uniones son herramientas prometedoras para el estudio del splicing alternativo. La mayoría de los procedimientos para tratar dichos arrays están centrados en la expresión del gen o los exones. Aunque a los únicos analitos biológicos a los que se les puede asignar correctamente una concentración son los transcritos, hay muy pocos algoritmos que se centren en ellos. Además, la predicción de estructura del gen, es decir la correspondencia entre las sondas de los microarrays y las nuevas isoformas, es un campo casi inexplorado. El propósito de esta tesis es el estudio y desarrollo de algoritmos eficientes para la predicción y la cuantificación de las isoformas alternativas de splicing de los diferentes genes presentes en múltiples experimentos utilizando microarrays. El método completo, denominado SPACE (Predicción de Estructura Y Estimación de la Concentración), utiliza una novedosa técnica llamada Factorización Matricial No-negativa (NMF). Utilizando NMF, SPACE descompone la matriz de medidas de sondas correspondiente a un gen en el producto de dos componentes positivas correspondientes a la estructura de los transcritos del gen y a sus concentraciones individuales, respectivamente. Los objetivos de SPACE son: 1. La predicción de estructura de las isoformas alternativas de splicing que están presentes en los experimentos de microarrays medidos. 2. La cuantificación de las concentraciones de transcriptos en los experimentos estudiados incluidas isoformas desconocidas. En SPACE, la simple descomposición NMF ha sido mejorada desarrollando algoritmos que (1) Estiman el número de transcritos por gen en un conjunto de muestras; (2) Detectan y sustituyen outliers en las medidas de las sondas; (3) Adaptan la matriz de predicción de estructura del gen al modelo de hibridación de las sondas utilizando los grados de libertad de la factorización NMF; (4) Realizan la corrección de estructura predicha utilizando la coherencia con la información sobre la posición de las sondas; y (5) Exploran la no-unicidad de la descomposición NMF. SPACE es capaz de realizar una predicción ciega de la estructura de los transcriptos de un gen y cuantificar sus concentraciones relativas en cada experimento. Los resultados obtenidos tanto con datos simulados de microarrays como con datos reales muestran la robustez y precisión de SPACE. Las simulaciones han sido realizadas para comprobar el funcionamiento de SPACE bajo diferentes condiciones midiendo la Sensibilidad (SN) y Especificidad (SP) de las predicciones de estructura y el porcentaje del Error Medio Absoluto (MAE%) de las concentraciones estimadas de transcritos. SPACE ha sido también aplicado a diferentes datos reales mostrando su efectividad y la concordancia con los resultados de validación utilizando PCR.