<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-06-02T10:38:43Z</responseDate><request verb="GetRecord" identifier="oai:riuma.uma.es:10630/5908" metadataPrefix="marc">https://riuma.uma.es/rest/oai/request</request><GetRecord><record><header><identifier>oai:riuma.uma.es:10630/5908</identifier><datestamp>2026-02-03T11:26:53Z</datestamp><setSpec>com_10630_2254</setSpec><setSpec>col_10630_37953</setSpec></header><metadata><record xmlns="http://www.loc.gov/MARC21/slim" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:doc="http://www.lyncode.com/xoai" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/MARC21/slim http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd">
   <leader>00925njm 22002777a 4500</leader>
   <datafield ind2=" " ind1=" " tag="042">
      <subfield code="a">dc</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="720">
      <subfield code="a">Ruiz-Montiel, Manuela</subfield>
      <subfield code="e">author</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="720">
      <subfield code="a">Mandow-Andaluz, Lorenzo</subfield>
      <subfield code="e">author</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="720">
      <subfield code="a">Pérez-de-la-Cruz-Molina, José Luis</subfield>
      <subfield code="e">author</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="260">
      <subfield code="c">2013-09</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">En este artí  culo describimos y analizamos PQ-learning, un&#xd;
algoritmo para problemas de aprendizaje por refuerzo multiobjetivo. El&#xd;
algoritmo es una extensi ón de Q-learning, un algoritmo para problemas&#xd;
de aprendizaje por refuerzo escalares. Al contrario que otros algoritmos,&#xd;
PQ-learning no requiere informaci ón de preferencias sobre los objetivos,&#xd;
es aplicable a problemas con fronteras de Pareto no convexas y permite&#xd;
recuperar a partir de los Q-valores las secuencias de acci ón correspondientes a diferentes polí  ticas Pareto- óptimas. PQ-learning ha sido aplicado&#xd;
a dos problemas pertenecientes a un banco de pruebas propuesto en la&#xd;
literatura de aprendizaje por refuerzo multiobjetivo</subfield>
   </datafield>
   <datafield ind1="8" ind2=" " tag="024">
      <subfield code="a">978-84-695-8348-7</subfield>
   </datafield>
   <datafield ind1="8" ind2=" " tag="024">
      <subfield code="a">http://hdl.handle.net/10630/5908</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Aprendizaje</subfield>
   </datafield>
   <datafield ind2="0" ind1="0" tag="245">
      <subfield code="a">PQ-learning: aprendizaje por refuerzo multiobjetivo</subfield>
   </datafield>
</record>
</metadata></record></GetRecord></OAI-PMH>