Uso de modelos de visión y lenguaje a gran escala en la desambiguación de mapas semánticos probabilísticos para robótica móvil.
Loading...
Identifiers
Publication date
Reading date
Authors
Collaborators
Tutors
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Share
Center
Department/Institute
Abstract
Los mapas semánticos son representaciones del entorno de trabajo de un robot
móvil que incluyen información tanto sobre la geometría de los elementos de
la escena como de su semántica, por ejemplo, las categorías de los objetos presentes
(silla, televisor, vaso, microondas, etc.). El proceso de construcción de dichos
mapas se ve afectado fundamentalmente por errores en el sensor y el modelo de
categorización empleado, lo que resulta en mapas con objetos categorizados de
manera imprecisa. Habitualmente, esta imprecisión en las categorías se explicita
mediante distribuciones probabilísticas.
Este Trabajo Fin de Grado propone un método para refinar mapas semánticos
probabilísticos mediante la desambiguación de objetos con alta incertidumbre en
su categorización. Para ello se emplea Voxeland, un marco que modela probabilísticamente
dicha incertidumbre sobre las categorías de los objetos, interpretadas
como opiniones subjetivas según la Teoría de la Evidencia.
La propuesta identifica las instancias ambiguas mediante el cálculo de la entropía
y, para cada una de ellas, selecciona sus categorías más probables y un
conjunto reducido de imágenes representativas. Estas se suministran, junto con
un prompt estructurado, a un Modelo de Visión y Lenguaje a Gran Escala (LVLM),
que devuelve nuevas opiniones sobre la categoría del objeto.
Las respuestas del LVLM se integran de vuelta en el mapa como nuevas evidencias,
actualizando las probabilidades de cada categoría. Las pruebas sobre el
conjunto de datos SceneNN muestran mejoras en la clasificación de objetos y una
reducción clara de la incertidumbre, fortaleciendo la fiabilidad de los mapas generados
para su uso en robótica móvil en entornos humanos.
Description
Bibliographic citation
Collections
Endorsement
Review
Supplemented By
Referenced by
Creative Commons license
Except where otherwised noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 International













