Mostrar el registro sencillo del ítem
Técnicas de visión por computador para calibración, localización y reconocimiento.
dc.contributor.advisor | González-Jiménez, Antonio Javier | |
dc.contributor.author | López Antequera, Manuel | |
dc.contributor.other | Ingeniería de Sistemas y Automática | es_ES |
dc.date.accessioned | 2021-09-23T12:14:16Z | |
dc.date.available | 2021-09-23T12:14:16Z | |
dc.date.issued | 2021-09 | |
dc.date.submitted | 2020-02-07 | |
dc.identifier.uri | https://hdl.handle.net/10630/22879 | |
dc.description | La localización visual consiste en recuperar la pose (posición y orientación en el espacio) de una cámara a partir de las imágenes capturadas por la misma, dada una base de datos (mapa) de imágenes previamente capturadas en el mismo entorno con poses conocidas. La localización visual puede sustituir o complementar a los sistemas de posicionamiento global (GPS) cuando estos no son suficientemente precisos o robustos (por ejemplo, en interiores). Proponemos un sistema que utiliza como entrada representaciones holísticas (un vector por imagen) de una secuencia de imágenes obtenidas por una cámara en movimiento para obtener la pose de la misma. Al contrario que otras técnicas contemporáneas, no nos limitamos al problema de localización entre dos secuencias o al problema de localización en un grafo: Nuestro mapa consiste en una colección desordenada de pares imagen-pose sin estructura explícita. Para ello utilizamos un filtro de partículas con un modelo de observación basado en procesos Gaussianos. Finalmente, desarrollamos dos módulos de propósito general para arquitecturas de redes neuronales convolucionales. En primer lugar proponemos CNN-COSFIRE, un módulo para la tarea de clasificación y detección de objetos. CNN-COSFIRE extiende y adapta el método COSFIRE para ser incluido en arquitecturas basadas en redes neuronales. Modela de forma explícita las relaciones geométricas de las activaciones de la red neuronal en el plano de la imagen y puede ser utilizado tanto para detección como para clasificación. En el último capítulo de la tesis introducimos un módulo bio-inspirado que puede utilizarse en arquitecturas de redes neuronales obteniendo mejoras en robustez con respecto al ruido en las imágenes de entrada. Su funcionamiento está inspirado en un fenómeno biológico conocido como inhibición "push-pull", donde neuronas espacialmente adyacentes modulan y compensan sus activaciones recíprocamente. Los parámetros del módulo se pueden entrenar junto con el resto de la arquitectura, de forma que se puede sustituir cualquier capa convolucional por el módulo propuesto con facilidad. Validamos de forma exhaustiva el módulo, demostrando su efectividad en la clasificación de imágenes perturbadas por distintos modelos de ruido con un incremento en el coste computacional despreciable al sustituir las capas convolucionales tradicionales por el módulo propuesto. | es_ES |
dc.description.abstract | En esta tesis exploramos varias aplicaciones prácticas de la visión por computador, con un hilo común: el uso de técnicas basadas en aprendizaje, en particular las redes neuronales convolucionales. Comenzamos explorando la tarea de calibración de cámara con una única imagen, que consiste en la predicción de los parámetros de calibración de una cámara a partir de una única imagen: Tanto los intrínsecos, que modelan la proyección de la luz sobre el sensor de la cámara como los extrínsecos, que describen la posición y orientación de la cámara con respecto a un eje de coordenadas del entorno. A continuación, nos enfrentamos a los problemas de reconocimiento visual de lugares y de localización visual en tres estudios diferenciados. El reconocimiento visual de lugares consiste en reconocer de forma automática un lugar previamente visitado, utilizando únicamente la apariencia visual, a pesar de posibles cambios en la apariencia de las imágenes (ya sea por cambios de iluminación, el clima o la estación del año). Juega un papel fundamental en la robótica móvil y en aplicaciones de conducción autónoma. Proponemos la utilización de un algoritmo basado en aprendizaje: Entrenamos una red neuronal convolucional para producir una representación de imágenes compacta y holística (representando la totalidad de la imagen, en lugar puntos característicos). El algoritmo se entrena con juegos de imágenes obtenidas con apariencias diferentes (en distintas épocas del año, con distintos niveles de iluminación, etc), con el objetivo de obtener representaciones invariantes a dichos cambios de apariencia. | es_ES |
dc.language.iso | eng | es_ES |
dc.publisher | UMA Editorial | es_ES |
dc.rights | info:eu-repo/semantics/openAccess | es_ES |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Robótica - Tesis doctorales | es_ES |
dc.subject.other | Vision por computador | es_ES |
dc.subject.other | Robótica | es_ES |
dc.subject.other | Visión artificial | es_ES |
dc.title | Técnicas de visión por computador para calibración, localización y reconocimiento. | es_ES |
dc.type | info:eu-repo/semantics/doctoralThesis | es_ES |
dc.centro | Escuela de Ingenierías Industriales | es_ES |
dc.rights.cc | Attribution-NonCommercial-NoDerivatives 4.0 Internacional | * |