RT Journal Article T1 PQ-learning: aprendizaje por refuerzo multiobjetivo A1 Ruiz-Montiel, Manuela A1 Mandow-Andaluz, Lorenzo A1 Pérez-de-la-Cruz-Molina, José Luis K1 Aprendizaje AB En este artí culo describimos y analizamos PQ-learning, unalgoritmo para problemas de aprendizaje por refuerzo multiobjetivo. Elalgoritmo es una extensi ón de Q-learning, un algoritmo para problemasde aprendizaje por refuerzo escalares. Al contrario que otros algoritmos,PQ-learning no requiere informaci ón de preferencias sobre los objetivos,es aplicable a problemas con fronteras de Pareto no convexas y permiterecuperar a partir de los Q-valores las secuencias de acci ón correspondientes a diferentes polí ticas Pareto- óptimas. PQ-learning ha sido aplicadoa dos problemas pertenecientes a un banco de pruebas propuesto en laliteratura de aprendizaje por refuerzo multiobjetivo SN 978-84-695-8348-7 YR 2013 FD 2013-09 LK http://hdl.handle.net/10630/5908 UL http://hdl.handle.net/10630/5908 LA spa NO Este trabajo está parcialmente fi nanciado por el Plan Nacional de I+D+I, proyecto TIN2009-14179 (Gobierno de España, Ministerio deCiencia e Innovaci ón) y por la Universidad de M álaga, Campus de ExcelenciaInternacional Andaluc ía Tech. Manuela Ruiz-Montiel disfruta de una beca FPU(Gobierno de España, Ministerio de Educación) DS RIUMA. Repositorio Institucional de la Universidad de Málaga RD 19 ene 2026