La información clínica de los sistemas de salud en España se guarda mayormente
como texto no estructurado en historias clínicas electrónicas. Extraer datos
importantes de estos documentos es crucial, especialmente en oncología donde
identificar información como el TNM, los valores de los receptores hormonales,
la posibilidad de una recidiva o la ubicación de las neoplasias es de carácter vital.
En este estudio, desarrollaremos metodologías de procesamiento del lenguaje
natural (PLN) basadas en modelos transformer para extraer esta información.
Otro de los objetivos de este trabajo es comparar los resultados con los previamente
obtenidos usando técnicas de machine learning, se explicaran brevemente
las técnicas en cuestión y los resultados que obtuvieron para el problema.
Paralelamente, en este trabajo se expone de forma clara el proceso de desarrollo
y las funcionalidades que ofrece una aplicación que se ha diseñado con objetivo
aportar información estadística sobre Real World Data (RWD) en los hospitales
que se encuentren en asociación con el grupo de Inteligencia Computacional en
Biomedicina (ICB) y la Sociedad Española de Oncología Médica (SEOM). El principal
análisis estadístico que se pretende proporcionar es el de supervivencia de
Kaplan-Maier, aunque se desarrollaran algunos mas generales.