Aprendizaje profundo aplicado a problemas de predicción de supervivencia en cáncer
Loading...
Identifiers
Publication date
Reading date
Authors
Cabello Toscano, María del Rocío
Collaborators
Tutors
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Share
Center
Department/Institute
Abstract
El cáncer se cobró 18,1 millones de muertes a nivel mundial en 2018 y $87,8 billones para cuidados de salud durante el
año 2014 en EEUU. El tremendo impacto que esta enfermedad supone a nivel mundial, junto con la disponibilidad cada
vez mayor de datos genómicos y transcriptómicos, han potenciado el interés en incorporar tecnologías de vanguardia,
como es el Aprendizaje Profundo (AI), a la lucha contra el cáncer. AI ha destacado en los últimos años, particularmente
por el rendimiento de los modelos de Redes Neuronales Convolucionales (RNC) en reconocimiento de imágenes. El
problema para el cual todos los modelos de este proyecto han sido entrenados es la predicción de supervivencia en
cáncer en un conjunto discreto de intervalos de tiempo a partir de datos de RNA-Seq, debido a la importancia que
el análisis de la supervivencia tiene en cuanto al estudio de los tratamientos contra el cáncer y su mejora. La propia
naturaleza de los datos biológicos trae consigo algunos inconvenientes cuando se usan para entrenar modelos de
RNC. Estos datos normalmente est´an formados por un número mucho mayor de variables (M) que de observaciones
(N). Esto se conoce como la maldición de la dimensionalidad (en inglés, the Curse of Dimensionality) (M>>N). Otro
inconveniente es la falta, a priori, de información espacial entre las variables biológicas. RNC son un tipo de modelo
concreto de Aprendizaje Profundo que está especialmente pensado para el procesado de imágenes, en las cuales los
píxeles que las componen se relacionan con sus píxeles vecinos. Esta relación se usa en las RNC para extraer más
conocimientos de las observaciones y tener, en consecuencia, un mejor rendimiento. En este proyecto se proponen
algunas estrategias para tratar de resolver estos dos inconvenientes. Con el objetivo de equipar a los perfiles de expresión
génica con estructura, cinco estrategias han sido propuestas, aplicadas y comparadas. ...
Description
Cancer claimed 18.1 millions deaths worldwide in 2018 and $87.8 billion for health-care in 2014 in USA. The tremendous
impact this disease supposes worldwide, combined with the increasingly availability of genomic and transcriptomic data,
have aroused the interest on incorporating cutting edge technologies, such as Deep Learning (DL), in the fight against
cancer. DL has stand out in the last years, particularly because of the performance of the Convolutional Neural Networks
(ConvNets) models in image recognition. The problem for which all models in this project have been trained is the
prediction of cancer survival in a discrete set of time intervals, from RNA-Seq data, because of the importance survival
analysis have in the study of cancer treatment and its improvement. The very nature of biological data brings some
inconvenients when using it for training a ConvNet model. These data are usually composed by a much bigger number
of features (M) than observations (N). This is known as the Curse of Dimensionality (M>>N). Other inconvenient is the
lack, a priori, of spatial information among biological features. ConvNet is a DL model which is specially designed for
image processing, in which the pixels composing them are related to its neighbour. This relation is used by ConvNets
to extract more knowledge from observations and have, in consequence, a better performance. This project proposes
some strategies to try to solve these two inconvenients. In order to equip gene-expression-profiles with structure, five
strategies have been proposed, applied and compared. Similarly, the transfer learning technique known as fine-tuning
have been applied to try to solve the inconvenient which we refer to as the Curse of Dimensionality. The comparison of
these models, all trained with the same set of features and observations, has been made by calculating the Concordance
Index (C-index) metric for each of them.
Bibliographic citation
Collections
Endorsement
Review
Supplemented By
Referenced by
Creative Commons license
Except where otherwised noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internacional










