Creación de mapas semántico-topológicos para robótica móvil utilizando modelos de aprendizaje profundo
| dc.centro | Escuela de Ingenierías Industriales | |
| dc.contributor.advisor | Ruiz-Sarmiento, José Raúl | |
| dc.contributor.advisor | González-Jiménez, Antonio Javier | |
| dc.contributor.author | Moncada Ramírez, Jesús | |
| dc.date.accessioned | 2026-04-09T06:40:21Z | |
| dc.date.issued | 2025-07 | |
| dc.departamento | Ingeniería de Sistemas y Automática | |
| dc.description.abstract | The ability of a mobile robot to carry out complex tasks largely depends on its level of understanding of the environment. A common option to achieve this advanced understanding —typically represented through a map— is the integration of both geometric information (spatial extent) and semantic information (identity, functionality, etc.) of the present objects. These representations can be further enriched by incorporating a division of the environment into meaningful places, as well as the relationships between these places and the objects, giving rise to the so-called semantic-topological maps. However, the construction of such maps has traditionally been limited by the need for manual annotations and the use of a closed vocabulary, which restricts both their scalability and expressiveness. In this context, recent advances in generative artificial intelligence (AI) offer a promising path to enrich these representations in a more flexible and automated manner. This Master’s Thesis explores how generative AI models —in particular, Large Language Models (LLMs) and Large Vision-Language Models (LVLMs)— can be used to automatically build semantic-topological maps while mitigating the aforementioned limitations. Specifically, two approaches are developed for place segmentation and categorization: one based on clustering of semantic descriptors contextualized through natural language processing techniques applied to the present objects, and another that directly leverages LLMs to infer the spatial structure of the environment. In addition, two strategies are proposed to infer semantic relationships between objects: a textual one, based solely on linguistic descriptions of the scene, and a multimodal one, which combines visual and textual information through LVLMs. Experiments conducted on semantic maps generated from the ScanNet and SceneNN datasets confirm that the proposed methods effectively enrich the maps, overcoming the aforementioned limitations. Beyond the quality of the map construction, this work also evaluates the functional impact of such enriched maps on the operation of a mobile robot that uses an LLM as its reasoning engine. By comparing the LLM’s performance in two configurations —one with a basic semantic map (only objects) and another with an enriched map (objects, places, and relationships)— results show that the incorporation of topological information significantly improves the robot’s ability to reason and act in a more informed and effective manner, especially when using smaller-scale language models. | |
| dc.description.abstract | La capacidad de un robot móvil para llevar a cabo tareas complejas depende en gran medida de su nivel de comprensión del entorno. Una opción recurrente para alcanzar esta comprensión avanzada —habitualmente representada mediante un mapa— es la integración tanto de información geométrica (extensión espacial) como semántica (identidad, funcionalidad, etc.) de los objetos presentes. Dichas representaciones pueden enriquecerse incorporando una división del entorno en lugares con un cierto significado, así como las relaciones entre estos lugares y los objetos, dando lugar a los denominados mapas semántico-topológicos. Sin embargo, la construcción de estos mapas ha estado tradicionalmente limitada por la necesidad de anotaciones manuales y el uso de un vocabulario cerrado, lo que restringe tanto su escalabilidad como su expresividad. En este contexto, los recientes avances en inteligencia artificial (IA) generativa ofrecen una vía prometedora para enriquecer dichas representaciones de forma más flexible y automatizada. Este Trabajo de Fin de Máster explora cómo los modelos generativos de IA — en particular los Large Language Models (LLMs) y Large Vision-Language Models (LVLMs)— pueden emplearse para construir automáticamente mapas semántico-topológicos mitigando las limitaciones anteriores. En concreto, se desarrollan dos enfoques para la segmentación y categorización de lugares: uno basado en clustering de descriptores semánticos contextualizados mediante técnicas de procesamiento del lenguaje natural aplicadas a los objetos presentes, y otro que recurre directamente a LLMs para inferir la estructura espacial del entorno. Asimismo, se proponen dos estrategias para inferir relaciones semánticas entre objetos: una textual, basada únicamente en descripciones lingüísticas de la escena, y otra multimodal, que combina información visual y textual mediante LVLMs. Los experimentos realizados sobre mapas semánticos generados a partir de los conjuntos de datos ScanNet y SceneNN confirman que los métodos propuestos enriquecen eficazmente los mapas, superando las limitaciones mencionadas. Más allá de la calidad en la construcción del mapa, este trabajo evalúa también el impacto funcional de dichos mapas enriquecidos en la operativa de un robot móvil que emplea un LLM como motor de razonamiento. Al comparar el rendimiento del LLM en dos configuraciones —una con un mapa semántico básico (solo objetos) y otra con un mapa enriquecido (objetos, lugares y relaciones)— los resultados muestran que la incorporación de información topológica mejora significativamente la capacidad del robot para razonar y actuar de forma más informada y eficaz, especialmente cuando se utilizan modelos de lenguaje de menor escala. | |
| dc.identifier.uri | https://hdl.handle.net/10630/46301 | |
| dc.language.iso | spa | |
| dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
| dc.rights.accessRights | open access | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Robótica - Trabajos fin de máster | |
| dc.subject | Aprendizaje automático (Inteligencia artificial) - Trabajos fin de máster | |
| dc.subject | Inteligencia artificial - Trabajos fin de máster | |
| dc.subject.other | Intelligent robotics | |
| dc.subject.other | Semantic-topological maps | |
| dc.subject.other | Deep learning | |
| dc.subject.other | Large models | |
| dc.subject.other | Robótica inteligente | |
| dc.subject.other | Mapas semántico-topológicos | |
| dc.subject.other | Aprendizaje profundo | |
| dc.subject.other | Modelos de gran escala | |
| dc.title | Creación de mapas semántico-topológicos para robótica móvil utilizando modelos de aprendizaje profundo | |
| dc.title.alternative | Building semantic-topological maps for mobile robotics using deep learning models | |
| dc.type | master thesis | |
| dspace.entity.type | Publication | |
| relation.isAdvisorOfPublication | b8f8b59c-be28-4aa6-9f1b-db7b0dc8f93b | |
| relation.isAdvisorOfPublication | 3000ee8d-0551-4a25-b568-d5c0a93117b2 | |
| relation.isAdvisorOfPublication.latestForDiscovery | b8f8b59c-be28-4aa6-9f1b-db7b0dc8f93b |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- tfm_Moncada_Ramirez_Jesus-600.pdf
- Size:
- 36.26 MB
- Format:
- Adobe Portable Document Format

