Uso de modelos de visión y lenguaje a gran escala en la desambiguación de mapas semánticos probabilísticos para robótica móvil.

Torremocha Doblas, Adrián

Uso de modelos de visión y lenguaje a gran escala en la desambiguación de mapas semánticos probabilísticos para robótica móvil.

dc.centro	E.T.S.I. Informática
dc.contributor.advisor	Ruiz-Sarmiento, José Raúl
dc.contributor.advisor	González-Jiménez, Antonio Javier
dc.contributor.author	Torremocha Doblas, Adrián
dc.date.accessioned	2026-01-26T18:25:39Z
dc.date.issued	2025-07
dc.departamento	Ingeniería de Sistemas y Automática
dc.description.abstract	Los mapas semánticos son representaciones del entorno de trabajo de un robot móvil que incluyen información tanto sobre la geometría de los elementos de la escena como de su semántica, por ejemplo, las categorías de los objetos presentes (silla, televisor, vaso, microondas, etc.). El proceso de construcción de dichos mapas se ve afectado fundamentalmente por errores en el sensor y el modelo de categorización empleado, lo que resulta en mapas con objetos categorizados de manera imprecisa. Habitualmente, esta imprecisión en las categorías se explicita mediante distribuciones probabilísticas. Este Trabajo Fin de Grado propone un método para refinar mapas semánticos probabilísticos mediante la desambiguación de objetos con alta incertidumbre en su categorización. Para ello se emplea Voxeland, un marco que modela probabilísticamente dicha incertidumbre sobre las categorías de los objetos, interpretadas como opiniones subjetivas según la Teoría de la Evidencia. La propuesta identifica las instancias ambiguas mediante el cálculo de la entropía y, para cada una de ellas, selecciona sus categorías más probables y un conjunto reducido de imágenes representativas. Estas se suministran, junto con un prompt estructurado, a un Modelo de Visión y Lenguaje a Gran Escala (LVLM), que devuelve nuevas opiniones sobre la categoría del objeto. Las respuestas del LVLM se integran de vuelta en el mapa como nuevas evidencias, actualizando las probabilidades de cada categoría. Las pruebas sobre el conjunto de datos SceneNN muestran mejoras en la clasificación de objetos y una reducción clara de la incertidumbre, fortaleciendo la fiabilidad de los mapas generados para su uso en robótica móvil en entornos humanos.
dc.identifier.uri	https://hdl.handle.net/10630/44912
dc.language.iso	spa
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.accessRights	open access
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	E.T.S.I. Informática - Trabajos Fin de Grado
dc.subject	Grado en Ingeniería del Software - Trabajos Fin de Grado
dc.subject.other	Robótica inteligente
dc.subject.other	Aprendizaje automático
dc.subject.other	Métodos Bayesianos
dc.subject.other	Robots móviles autónomos
dc.subject.other	Construcción de mapas
dc.title	Uso de modelos de visión y lenguaje a gran escala en la desambiguación de mapas semánticos probabilísticos para robótica móvil.
dc.title.alternative	Use of Large-Scale Vision and Language Models in the Disambiguation of Probabilistic Semantic Maps for Mobile Robotics
dc.type	bachelor thesis
dspace.entity.type	Publication
relation.isAdvisorOfPublication	b8f8b59c-be28-4aa6-9f1b-db7b0dc8f93b
relation.isAdvisorOfPublication	3000ee8d-0551-4a25-b568-d5c0a93117b2
relation.isAdvisorOfPublication.latestForDiscovery	b8f8b59c-be28-4aa6-9f1b-db7b0dc8f93b

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Adrián Torremocha Doblas _2025__TFG__Adrián_Torremocha_def.pdf
Size:: 13.76 MB
Format:: Adobe Portable Document Format

Download

Collections

Trabajos Fin de Grado