Aprendizaje profundo aplicado a problemas de predicción de supervivencia en cáncer

Loading...
Thumbnail Image

Identifiers

Publication date

Reading date

Authors

Cabello Toscano, María del Rocío

Collaborators

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Metrics

Google Scholar

Share

Research Projects

Organizational Units

Journal Issue

Abstract

El cáncer se cobró 18,1 millones de muertes a nivel mundial en 2018 y $87,8 billones para cuidados de salud durante el año 2014 en EEUU. El tremendo impacto que esta enfermedad supone a nivel mundial, junto con la disponibilidad cada vez mayor de datos genómicos y transcriptómicos, han potenciado el interés en incorporar tecnologías de vanguardia, como es el Aprendizaje Profundo (AI), a la lucha contra el cáncer. AI ha destacado en los últimos años, particularmente por el rendimiento de los modelos de Redes Neuronales Convolucionales (RNC) en reconocimiento de imágenes. El problema para el cual todos los modelos de este proyecto han sido entrenados es la predicción de supervivencia en cáncer en un conjunto discreto de intervalos de tiempo a partir de datos de RNA-Seq, debido a la importancia que el análisis de la supervivencia tiene en cuanto al estudio de los tratamientos contra el cáncer y su mejora. La propia naturaleza de los datos biológicos trae consigo algunos inconvenientes cuando se usan para entrenar modelos de RNC. Estos datos normalmente est´an formados por un número mucho mayor de variables (M) que de observaciones (N). Esto se conoce como la maldición de la dimensionalidad (en inglés, the Curse of Dimensionality) (M>>N). Otro inconveniente es la falta, a priori, de información espacial entre las variables biológicas. RNC son un tipo de modelo concreto de Aprendizaje Profundo que está especialmente pensado para el procesado de imágenes, en las cuales los píxeles que las componen se relacionan con sus píxeles vecinos. Esta relación se usa en las RNC para extraer más conocimientos de las observaciones y tener, en consecuencia, un mejor rendimiento. En este proyecto se proponen algunas estrategias para tratar de resolver estos dos inconvenientes. Con el objetivo de equipar a los perfiles de expresión génica con estructura, cinco estrategias han sido propuestas, aplicadas y comparadas. ...

Description

Cancer claimed 18.1 millions deaths worldwide in 2018 and $87.8 billion for health-care in 2014 in USA. The tremendous impact this disease supposes worldwide, combined with the increasingly availability of genomic and transcriptomic data, have aroused the interest on incorporating cutting edge technologies, such as Deep Learning (DL), in the fight against cancer. DL has stand out in the last years, particularly because of the performance of the Convolutional Neural Networks (ConvNets) models in image recognition. The problem for which all models in this project have been trained is the prediction of cancer survival in a discrete set of time intervals, from RNA-Seq data, because of the importance survival analysis have in the study of cancer treatment and its improvement. The very nature of biological data brings some inconvenients when using it for training a ConvNet model. These data are usually composed by a much bigger number of features (M) than observations (N). This is known as the Curse of Dimensionality (M>>N). Other inconvenient is the lack, a priori, of spatial information among biological features. ConvNet is a DL model which is specially designed for image processing, in which the pixels composing them are related to its neighbour. This relation is used by ConvNets to extract more knowledge from observations and have, in consequence, a better performance. This project proposes some strategies to try to solve these two inconvenients. In order to equip gene-expression-profiles with structure, five strategies have been proposed, applied and compared. Similarly, the transfer learning technique known as fine-tuning have been applied to try to solve the inconvenient which we refer to as the Curse of Dimensionality. The comparison of these models, all trained with the same set of features and observations, has been made by calculating the Concordance Index (C-index) metric for each of them.

Bibliographic citation

Endorsement

Review

Supplemented By

Referenced by

Creative Commons license

Except where otherwised noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internacional