Creación de mapas semántico-topológicos para robótica móvil utilizando modelos de aprendizaje profundo

Moncada Ramírez, Jesús

Creación de mapas semántico-topológicos para robótica móvil utilizando modelos de aprendizaje profundo

dc.centro	Escuela de Ingenierías Industriales
dc.contributor.advisor	Ruiz-Sarmiento, José Raúl
dc.contributor.advisor	González-Jiménez, Antonio Javier
dc.contributor.author	Moncada Ramírez, Jesús
dc.date.accessioned	2026-04-09T06:40:21Z
dc.date.issued	2025-07
dc.departamento	Ingeniería de Sistemas y Automática
dc.description.abstract	The ability of a mobile robot to carry out complex tasks largely depends on its level of understanding of the environment. A common option to achieve this advanced understanding —typically represented through a map— is the integration of both geometric information (spatial extent) and semantic information (identity, functionality, etc.) of the present objects. These representations can be further enriched by incorporating a division of the environment into meaningful places, as well as the relationships between these places and the objects, giving rise to the so-called semantic-topological maps. However, the construction of such maps has traditionally been limited by the need for manual annotations and the use of a closed vocabulary, which restricts both their scalability and expressiveness. In this context, recent advances in generative artificial intelligence (AI) offer a promising path to enrich these representations in a more flexible and automated manner. This Master’s Thesis explores how generative AI models —in particular, Large Language Models (LLMs) and Large Vision-Language Models (LVLMs)— can be used to automatically build semantic-topological maps while mitigating the aforementioned limitations. Specifically, two approaches are developed for place segmentation and categorization: one based on clustering of semantic descriptors contextualized through natural language processing techniques applied to the present objects, and another that directly leverages LLMs to infer the spatial structure of the environment. In addition, two strategies are proposed to infer semantic relationships between objects: a textual one, based solely on linguistic descriptions of the scene, and a multimodal one, which combines visual and textual information through LVLMs. Experiments conducted on semantic maps generated from the ScanNet and SceneNN datasets confirm that the proposed methods effectively enrich the maps, overcoming the aforementioned limitations. Beyond the quality of the map construction, this work also evaluates the functional impact of such enriched maps on the operation of a mobile robot that uses an LLM as its reasoning engine. By comparing the LLM’s performance in two configurations —one with a basic semantic map (only objects) and another with an enriched map (objects, places, and relationships)— results show that the incorporation of topological information significantly improves the robot’s ability to reason and act in a more informed and effective manner, especially when using smaller-scale language models.
dc.description.abstract	La capacidad de un robot móvil para llevar a cabo tareas complejas depende en gran medida de su nivel de comprensión del entorno. Una opción recurrente para alcanzar esta comprensión avanzada —habitualmente representada mediante un mapa— es la integración tanto de información geométrica (extensión espacial) como semántica (identidad, funcionalidad, etc.) de los objetos presentes. Dichas representaciones pueden enriquecerse incorporando una división del entorno en lugares con un cierto significado, así como las relaciones entre estos lugares y los objetos, dando lugar a los denominados mapas semántico-topológicos. Sin embargo, la construcción de estos mapas ha estado tradicionalmente limitada por la necesidad de anotaciones manuales y el uso de un vocabulario cerrado, lo que restringe tanto su escalabilidad como su expresividad. En este contexto, los recientes avances en inteligencia artificial (IA) generativa ofrecen una vía prometedora para enriquecer dichas representaciones de forma más flexible y automatizada. Este Trabajo de Fin de Máster explora cómo los modelos generativos de IA — en particular los Large Language Models (LLMs) y Large Vision-Language Models (LVLMs)— pueden emplearse para construir automáticamente mapas semántico-topológicos mitigando las limitaciones anteriores. En concreto, se desarrollan dos enfoques para la segmentación y categorización de lugares: uno basado en clustering de descriptores semánticos contextualizados mediante técnicas de procesamiento del lenguaje natural aplicadas a los objetos presentes, y otro que recurre directamente a LLMs para inferir la estructura espacial del entorno. Asimismo, se proponen dos estrategias para inferir relaciones semánticas entre objetos: una textual, basada únicamente en descripciones lingüísticas de la escena, y otra multimodal, que combina información visual y textual mediante LVLMs. Los experimentos realizados sobre mapas semánticos generados a partir de los conjuntos de datos ScanNet y SceneNN confirman que los métodos propuestos enriquecen eficazmente los mapas, superando las limitaciones mencionadas. Más allá de la calidad en la construcción del mapa, este trabajo evalúa también el impacto funcional de dichos mapas enriquecidos en la operativa de un robot móvil que emplea un LLM como motor de razonamiento. Al comparar el rendimiento del LLM en dos configuraciones —una con un mapa semántico básico (solo objetos) y otra con un mapa enriquecido (objetos, lugares y relaciones)— los resultados muestran que la incorporación de información topológica mejora significativamente la capacidad del robot para razonar y actuar de forma más informada y eficaz, especialmente cuando se utilizan modelos de lenguaje de menor escala.
dc.identifier.uri	https://hdl.handle.net/10630/46301
dc.language.iso	spa
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.accessRights	open access
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Robótica - Trabajos fin de máster
dc.subject	Aprendizaje automático (Inteligencia artificial) - Trabajos fin de máster
dc.subject	Inteligencia artificial - Trabajos fin de máster
dc.subject.other	Intelligent robotics
dc.subject.other	Semantic-topological maps
dc.subject.other	Deep learning
dc.subject.other	Large models
dc.subject.other	Robótica inteligente
dc.subject.other	Mapas semántico-topológicos
dc.subject.other	Aprendizaje profundo
dc.subject.other	Modelos de gran escala
dc.title	Creación de mapas semántico-topológicos para robótica móvil utilizando modelos de aprendizaje profundo
dc.title.alternative	Building semantic-topological maps for mobile robotics using deep learning models
dc.type	master thesis
dspace.entity.type	Publication
relation.isAdvisorOfPublication	b8f8b59c-be28-4aa6-9f1b-db7b0dc8f93b
relation.isAdvisorOfPublication	3000ee8d-0551-4a25-b568-d5c0a93117b2
relation.isAdvisorOfPublication.latestForDiscovery	b8f8b59c-be28-4aa6-9f1b-db7b0dc8f93b

Files

Original bundle

Now showing 1 - 1 of 1

Name:: tfm_Moncada_Ramirez_Jesus-600.pdf
Size:: 36.26 MB
Format:: Adobe Portable Document Format

Download

Collections

Trabajos Fin de Máster