Técnicas de visión por computador para calibración, localización y reconocimiento.

López Antequera, Manuel

Preguntas frecuentes Manual de uso Derechos de autor Contacto/Sugerencias

dc.contributor.advisor	González-Jiménez, Antonio Javier
dc.contributor.author	López Antequera, Manuel
dc.contributor.other	Ingeniería de Sistemas y Automática	es_ES
dc.date.accessioned	2021-09-23T12:14:16Z
dc.date.available	2021-09-23T12:14:16Z
dc.date.issued	2021-09
dc.date.submitted	2020-02-07
dc.identifier.uri	https://hdl.handle.net/10630/22879
dc.description	La localización visual consiste en recuperar la pose (posición y orientación en el espacio) de una cámara a partir de las imágenes capturadas por la misma, dada una base de datos (mapa) de imágenes previamente capturadas en el mismo entorno con poses conocidas. La localización visual puede sustituir o complementar a los sistemas de posicionamiento global (GPS) cuando estos no son suficientemente precisos o robustos (por ejemplo, en interiores). Proponemos un sistema que utiliza como entrada representaciones holísticas (un vector por imagen) de una secuencia de imágenes obtenidas por una cámara en movimiento para obtener la pose de la misma. Al contrario que otras técnicas contemporáneas, no nos limitamos al problema de localización entre dos secuencias o al problema de localización en un grafo: Nuestro mapa consiste en una colección desordenada de pares imagen-pose sin estructura explícita. Para ello utilizamos un filtro de partículas con un modelo de observación basado en procesos Gaussianos. Finalmente, desarrollamos dos módulos de propósito general para arquitecturas de redes neuronales convolucionales. En primer lugar proponemos CNN-COSFIRE, un módulo para la tarea de clasificación y detección de objetos. CNN-COSFIRE extiende y adapta el método COSFIRE para ser incluido en arquitecturas basadas en redes neuronales. Modela de forma explícita las relaciones geométricas de las activaciones de la red neuronal en el plano de la imagen y puede ser utilizado tanto para detección como para clasificación. En el último capítulo de la tesis introducimos un módulo bio-inspirado que puede utilizarse en arquitecturas de redes neuronales obteniendo mejoras en robustez con respecto al ruido en las imágenes de entrada. Su funcionamiento está inspirado en un fenómeno biológico conocido como inhibición "push-pull", donde neuronas espacialmente adyacentes modulan y compensan sus activaciones recíprocamente. Los parámetros del módulo se pueden entrenar junto con el resto de la arquitectura, de forma que se puede sustituir cualquier capa convolucional por el módulo propuesto con facilidad. Validamos de forma exhaustiva el módulo, demostrando su efectividad en la clasificación de imágenes perturbadas por distintos modelos de ruido con un incremento en el coste computacional despreciable al sustituir las capas convolucionales tradicionales por el módulo propuesto.	es_ES
dc.description.abstract	En esta tesis exploramos varias aplicaciones prácticas de la visión por computador, con un hilo común: el uso de técnicas basadas en aprendizaje, en particular las redes neuronales convolucionales. Comenzamos explorando la tarea de calibración de cámara con una única imagen, que consiste en la predicción de los parámetros de calibración de una cámara a partir de una única imagen: Tanto los intrínsecos, que modelan la proyección de la luz sobre el sensor de la cámara como los extrínsecos, que describen la posición y orientación de la cámara con respecto a un eje de coordenadas del entorno. A continuación, nos enfrentamos a los problemas de reconocimiento visual de lugares y de localización visual en tres estudios diferenciados. El reconocimiento visual de lugares consiste en reconocer de forma automática un lugar previamente visitado, utilizando únicamente la apariencia visual, a pesar de posibles cambios en la apariencia de las imágenes (ya sea por cambios de iluminación, el clima o la estación del año). Juega un papel fundamental en la robótica móvil y en aplicaciones de conducción autónoma. Proponemos la utilización de un algoritmo basado en aprendizaje: Entrenamos una red neuronal convolucional para producir una representación de imágenes compacta y holística (representando la totalidad de la imagen, en lugar puntos característicos). El algoritmo se entrena con juegos de imágenes obtenidas con apariencias diferentes (en distintas épocas del año, con distintos niveles de iluminación, etc), con el objetivo de obtener representaciones invariantes a dichos cambios de apariencia.	es_ES
dc.language.iso	eng	es_ES
dc.publisher	UMA Editorial	es_ES
dc.rights	info:eu-repo/semantics/openAccess	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Robótica - Tesis doctorales	es_ES
dc.subject.other	Vision por computador	es_ES
dc.subject.other	Robótica	es_ES
dc.subject.other	Visión artificial	es_ES
dc.title	Técnicas de visión por computador para calibración, localización y reconocimiento.	es_ES
dc.type	info:eu-repo/semantics/doctoralThesis	es_ES
dc.centro	Escuela de Ingenierías Industriales	es_ES
dc.rights.cc	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*

Ficheros en el ítem

Nombre:: TD_LOPEZ_ANTEQUERA_Manuel.pdf
Tamaño:: 2.846Mb
Formato:: PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

ISA - Tesis

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional