La robótica se está convirtiendo con el paso de los años en un sector estratégico, puesto que está asociada con el desarrollo tecnológico. La dirección hacia la que nos lleva esta situación es la de una sociedad donde la robótica de servicio va a eclosionar. En este ámbito la exploración de un entorno total o parcialmente desconocido es vital en campos como la robótica de rescate, la robótica aplicada a la vigilancia, la exploración espacial o en entornos de riesgo como volcanes. Su objetivo es adquirir el máximo grado de conocimiento sobre el entorno de trabajo. En esta Tesis se desarrolla un sistema eficiente de navegación basado en comportamientos para la exploración completa de entornos dinámicos de interior total o parcialmente desconocidos por parte de un agente autónomo móvil. El sistema se basa en una arquitectura híbrida que combina las ventajas de los sistemas reactivos y los deliberados, ya que actualmente es la mejor alternativa para trabajar con agentes autónomos móviles. En el sistema se distinguen las tres capas típicas de toda arquitectura híbrida: la capa reactiva encargada de implementar los comportamientos reactivos, la capa deliberada que implementa la planificación de rutas y la capa intermedia que sirve de interfaz entre los niveles reactivo y deliberado. Estas tres capas constituyen el eje principal del sistema de exploración desarrollado. El nivel reactivo está basado en la cooperación de tres comportamientos habitualmente empleados en la exploración de entornos, Seguir Pared, Seguir Pasillo y Cruzar Puerta. En su diseño e implementación se han seguido dos estrategias. En primer lugar se ha considerado un nuevo modelo analítico basado en la suma de varias fuerzas. Debido a que este modelo presenta algunos problemas como las oscilaciones y la dificultad para navegar entre obstáculos cercanos, también se ha optado por desarrollarlos según el Razonamiento Basado en Casos, que permite aprender de la experiencia para mejorar el funcionamiento. A este respecto, se propone una nueva filosofía de diseño aplicable a cualquier comportamiento reactivo, incorporando mecanismos de razonamiento y aprendizaje que permiten la adaptación a diferentes plataformas con sólo pequeños cambios. Ambas estrategias han sido comparadas tanto en entornos simulados como reales, demostrando que el Razonamiento Basado en casos supera al modelo analítico en la operación del agente. La cooperación entre los tres comportamientos reactivos viene determinada por el nivel intermedio del sistema. Se ha diseñado y desarrollado una técnica que calcula los factores de ponderación a aplicar a los tres comportamientos de navegación reactiva, para combinar linealmente sus comandos de movimiento. De este modo se consigue que cooperen en la exploración del entorno de forma eficiente, adaptándose a las circunstancias y particularidades del entorno en cada momento. La técnica se basa en un nuevo proceso de extracción de un vector de características de tamaño reducido a partir de un mapa probabilístico en las proximidades del robot, gracias al análisis de componentes principales. Los resultados en entornos simulados y reales, tanto cualitativos como cuantitativos, demuestran la validez de la propuesta. Para la presentación de estos resultados se han desarrollado dos nuevas representaciones, la representación de selección y la representación de fusión. El nivel deliberado del sistema se encarga de calcular la ruta de exploración completa que el agente debe seguir para cubrir las zonas inexploradas del entorno. El método está soportado por una estructura piramidal jerárquica que integra los paradigmas métrico y topológico de modelado de entornos. El entorno queda dividido en regiones, estando las áreas no exploradas explícitamente representadas. El mapa topológico generado permite la obtención de las regiones no exploradas, así como de la distancia entre ellas. Con estos datos, el problema de la planificación de la ruta de exploración es similar al problema del viajante (\emph{TSP}). Para resolverlo se propone un algoritmo genético que ha dado unos resultados satisfactorios en las pruebas simuladas y reales. Presenta la ventaja de que escogiendo los nodos que se quiere visitar, por defecto todos los no explorados, es adaptable a muchos otros problemas de razonamiento de alto nivel. Todo el sistema ha sido integrado tanto en una plataforma simulada como en la plataforma robótica real \emph{Pioneer P2AT} . El robot sigue la ruta ordenada de exploración completa proporcionada por el nivel deliberado, dirigiéndose en todo momento hacia la siguiente zona no explorada propuesta. La navegación se realiza mediante los tres comportamientos reactivos, estando sus comandos de movimiento ponderados por los factores que se obtienen en la capa intermedia. El sistema ha demostrado el cumplimiento de los objetivos planteados, siendo capaz de explorar de forma eficiente entornos total o parcialmente desconocidos.