En la última década, el aprendizaje profundo (DL) se ha impuesto como el enfoque de inteligencia artificial con mayor progresión y éxito. El DL conforma el estado del arte en visión por computador y procesamiento del lenguaje natural, mostrando además un potencial prometedor en bioinformática, un campo de gran impacto económico y social.
Sin embargo, estos modelos presentan una importante desventaja, requieren de miles de instancias de datos para lograr un buen nivel de éxito. Actualmente en bioinformática, la adquisición de datos sigue siendo un proceso difícil y costoso, especialmente trabajando con conjuntos genómicos, expresión molecular o metabolómica. Estos son significativamente difíciles de obtener, y su escasez es acuciante en estudios de enfermedades raras o regiones geográficas concretas. Para resolver esta limitación se puede emplear el aumento de datos (DA), el incremento del número de muestras disponibles mediante transformaciones o generación. En los últimos años, modelos de DA pertenecientes al DL han obtenido un rendimiento asombroso en generación de imágenes sintéticas. Sin embargo, aplicar estos modelos a conjuntos bioinformáticos sin información espacial o temporal es desafiante.
A este respecto, el objetivo de la tesis doctoral es el desarrollo de métodos de DA y su aplicación en problemas bioinformáticos no estructurados.