En la actualidad se conocen un gran cúmulo de aplicaciones y prestaciones para la
inteligencia artificial, es innegable la influencia residente en este campo en lo relativo al
futuro de la informática. Pero hay que puntualizar que no todos los problemas son iguales, y,
por lo tanto, tampoco la metodología más precisa para resolverlos.
En este TFG estudiaremos concretamente un área del aprendizaje automático, conocida
como aprendizaje por refuerzo, que trata de optimizar la toma de decisiones mediante la
maximización de una recompensa o la minimización de un coste, a través de los procesos de
decisión de Markov. Como veremos adelante, este sistema está basado en la idea de que, en
problemas concretos, no podemos tener en cuenta la toma de decisiones como un proceso
riguroso y sin fallos, si no que el proceso transitorio que arraiga en la toma de decisiones
también puede llevar a error. Por ejemplo, aunque el algoritmo de un sistema autónomo
móvil decida moverse en una dirección concreta para alcanzar su destino, es necesario tener
en cuenta factores ambientales que sugieren un margen de error en el movimiento.
El estudio se llevará a cabo mediante la implementación de una serie de algoritmos
heurísticos para procesos de decisión de Markov, y, posteriormente, se hará una
comparativa de estos algoritmos a través de la definición de una serie de casos de prueba
con el fin de comprobar sus prestaciones y obtener conclusiones acerca de la optimalidad en
su uso.
En la memoria se detallará la teoría detrás de los procesos de Markov, así como la referente
a los algoritmos implementados con pseudocódigo incluido. También se graficará los datos
obtenidos en la aplicación de los algoritmos sobre los casos de prueba y se facilitará una
copia del código para el interesado.