Las técnicas de machine learning (ML) están transformando muchos de los aspectos nuestra sociedad hoy en día. En el campo de la medicina y más especificamente en la oncología el ML esta siendo aplicado desde los laboratorios hasta la práctica clínica. En este proyecto se aplicarán 4 modelos de ML en el prognóstico de supervivencia a 5 años a partir datos ómicos de cancer colorrectal. A la vez, se evaluará el sesgo en las predicciones de los modelos considerando como variable
de estudio ’RACE’ y como atributo sensible ’Black and African American’. El conjunto de datos usado pertenece a una cohorte real de 594 pacientes y fue descargado del repositorio público The Cancer Genome Atlas (TCGA). El tipo de datos ómico aociado a cada muestra y aplicado en el desarrollo de los modelos fue la integración de datos RNAseq, grado de metilación y abundancia de microorganismos
en microbioma. Las variables más significativas de los conjuntos de datos ómicos se realizó mediante 2 métodos de selección de variables secuencialmente aplicados. Las 30 variables más signíficativas de cada conjunto de dato ómico fueron aplicadas en el desarrollo de los modelos de ML. Los modelos de ML fueron implementados usando las librerías lgbm de Python y Caret de R. El rendimiento de los modelos se evaluó mediante 5x2 Cross Validation. Una selección de métricas fueron aplicadas tanto en la evaluación del rendimiento de los modelos ML,
como en la detección de bias en sus predicciones. Los resultados mostraron diferencias significativas en el rendimiento entre las familias de los modelos de ML aplicados. El análisis del sesgo en las predicciones se vio influida por la proporción desbalanceada de las variables en la variable ’Race’, provocando una disminución en la robustez de los resultados en las métricas aplicadas.