Uso de modelos de visión y lenguaje a gran escala en la desambiguación de mapas semánticos probabilísticos para robótica móvil.

Torremocha Doblas, Adrián

Uso de modelos de visión y lenguaje a gran escala en la desambiguación de mapas semánticos probabilísticos para robótica móvil.

Files

Adrián Torremocha Doblas _2025__TFG__Adrián_Torremocha_def.pdf (13.76 MB)

Identifiers

URI: https://hdl.handle.net/10630/44912

Publication date

2025-07

Authors

Torremocha Doblas, Adrián

Advisors

Ruiz-Sarmiento, José Raúl

González-Jiménez, Antonio Javier

Metrics

Share

Export

Center

E.T.S.I. Informática

Department/Institute

Ingeniería de Sistemas y Automática

Keywords

E.T.S.I. Informática - Trabajos Fin de Grado
Grado en Ingeniería del Software - Trabajos Fin de Grado

Abstract

Los mapas semánticos son representaciones del entorno de trabajo de un robot móvil que incluyen información tanto sobre la geometría de los elementos de la escena como de su semántica, por ejemplo, las categorías de los objetos presentes (silla, televisor, vaso, microondas, etc.). El proceso de construcción de dichos mapas se ve afectado fundamentalmente por errores en el sensor y el modelo de categorización empleado, lo que resulta en mapas con objetos categorizados de manera imprecisa. Habitualmente, esta imprecisión en las categorías se explicita mediante distribuciones probabilísticas. Este Trabajo Fin de Grado propone un método para refinar mapas semánticos probabilísticos mediante la desambiguación de objetos con alta incertidumbre en su categorización. Para ello se emplea Voxeland, un marco que modela probabilísticamente dicha incertidumbre sobre las categorías de los objetos, interpretadas como opiniones subjetivas según la Teoría de la Evidencia. La propuesta identifica las instancias ambiguas mediante el cálculo de la entropía y, para cada una de ellas, selecciona sus categorías más probables y un conjunto reducido de imágenes representativas. Estas se suministran, junto con un prompt estructurado, a un Modelo de Visión y Lenguaje a Gran Escala (LVLM), que devuelve nuevas opiniones sobre la categoría del objeto. Las respuestas del LVLM se integran de vuelta en el mapa como nuevas evidencias, actualizando las probabilidades de cada categoría. Las pruebas sobre el conjunto de datos SceneNN muestran mejoras en la clasificación de objetos y una reducción clara de la incertidumbre, fortaleciendo la fiabilidad de los mapas generados para su uso en robótica móvil en entornos humanos.

Collections

Trabajos Fin de Grado

Creative Commons license

Except where otherwised noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 International

Full item page

Uso de modelos de visión y lenguaje a gran escala en la desambiguación de mapas semánticos probabilísticos para robótica móvil.

Files

Identifiers

Publication date

Reading date

Authors

Collaborators

Advisors

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Metrics

Share

Export

Research Projects

Organizational Units

Journal Issue

Center

Department/Institute

Keywords

Abstract

Description

Bibliographic citation

Research data

Collections

Endorsement

Review

Supplemented By

Referenced by

Creative Commons license