Aplicación de técnicas de aprendizaje automático para la predicción de respuesta patológica en cáncer colorrectal.

Loading...
Thumbnail Image

Identifiers

Publication date

Reading date

Authors

Domínguez Recio, Alejandro

Collaborators

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Metrics

Google Scholar

Share

Research Projects

Organizational Units

Journal Issue

Abstract

Las técnicas de machine learning (ML) están transformando muchos de los aspectos nuestra sociedad hoy en día. En el campo de la medicina y más especificamente en la oncología el ML esta siendo aplicado desde los laboratorios hasta la práctica clínica. En este proyecto se aplicarán 4 modelos de ML en el prognóstico de supervivencia a 5 años a partir datos ómicos de cancer colorrectal. A la vez, se evaluará el sesgo en las predicciones de los modelos considerando como variable de estudio ’RACE’ y como atributo sensible ’Black and African American’. El conjunto de datos usado pertenece a una cohorte real de 594 pacientes y fue descargado del repositorio público The Cancer Genome Atlas (TCGA). El tipo de datos ómico aociado a cada muestra y aplicado en el desarrollo de los modelos fue la integración de datos RNAseq, grado de metilación y abundancia de microorganismos en microbioma. Las variables más significativas de los conjuntos de datos ómicos se realizó mediante 2 métodos de selección de variables secuencialmente aplicados. Las 30 variables más signíficativas de cada conjunto de dato ómico fueron aplicadas en el desarrollo de los modelos de ML. Los modelos de ML fueron implementados usando las librerías lgbm de Python y Caret de R. El rendimiento de los modelos se evaluó mediante 5x2 Cross Validation. Una selección de métricas fueron aplicadas tanto en la evaluación del rendimiento de los modelos ML, como en la detección de bias en sus predicciones. Los resultados mostraron diferencias significativas en el rendimiento entre las familias de los modelos de ML aplicados. El análisis del sesgo en las predicciones se vio influida por la proporción desbalanceada de las variables en la variable ’Race’, provocando una disminución en la robustez de los resultados en las métricas aplicadas.

Description

Bibliographic citation

Endorsement

Review

Supplemented By

Referenced by

Creative Commons license

Except where otherwised noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internacional