Los algoritmos desarrollados en este trabajo pretenden resolver mediante aprendizaje por
refuerzo tres entornos distintos (Taxi, Cartpole y MountainCar) proporcionados por el
framework OpenAI Gym [1] y hacer una comparativa del rendimiento de estos algoritmos.
Para ello, una vez implementados los distintos algoritmos, se ejecutarán un número
determinado de veces con el fin de poder evitar el factor aleatoriedad y poder hacer una
comparativa sobre las mismas condiciones.
El código a desarrollar se podría dividir principalmente en dos partes, el Agente contiene
la mayor parte de código y es el “cerebro”, el encargado de resolver el problema y llegar
encontrar una solución dado un entorno. Y una segunda parte encargada de reportar los datos
del entrenamiento del agente, tanto en forma de gráfica para ver el rendimiento, como en forma
de tabla para poder hacer una mejor comparativa.
Para la implementación se utilizan el framework OpenAI Gym, Python 3.7 [2] así como
diversas librerías y el entorno PyCharm