2026-06-02T10:38:43Zhttps://riuma.uma.es/rest/oai/request

oai:riuma.uma.es:10630/59082026-02-03T11:26:53Zcom_10630_2254col_10630_37953

00925njm 22002777a 4500 dc Ruiz-Montiel, Manuela author Mandow-Andaluz, Lorenzo author Pérez-de-la-Cruz-Molina, José Luis author 2013-09 En este artí culo describimos y analizamos PQ-learning, un algoritmo para problemas de aprendizaje por refuerzo multiobjetivo. El algoritmo es una extensi ón de Q-learning, un algoritmo para problemas de aprendizaje por refuerzo escalares. Al contrario que otros algoritmos, PQ-learning no requiere informaci ón de preferencias sobre los objetivos, es aplicable a problemas con fronteras de Pareto no convexas y permite recuperar a partir de los Q-valores las secuencias de acci ón correspondientes a diferentes polí ticas Pareto- óptimas. PQ-learning ha sido aplicado a dos problemas pertenecientes a un banco de pruebas propuesto en la literatura de aprendizaje por refuerzo multiobjetivo 978-84-695-8348-7 http://hdl.handle.net/10630/5908 Aprendizaje PQ-learning: aprendizaje por refuerzo multiobjetivo