Uno de los tres pilares sobre los que se sustenta la inteligencia artificial es la
disponibilidad de datos públicos etiquetados. En el campo de la visión por ordenador
puede llegar a resultar muy complicado, y sobre todo costoso, conseguir datos
fiables y etiquetados, llegando a consumir casi la totalidad de recursos y tiempo
en un proyecto. Revisando el estado del arte de las tecnologías disponibles para el
etiquetado de datos distinguimos dos vertientes: enfoques automáticos, que no consiguen
generar datos fiables, o enfoques manuales, centrados en buscar la perfección
en el etiquetado que resultan muy costosos.
En este proyecto, se ha desarrollado una herramienta para generar conjuntos de
datos etiquetados a partir de secuencias de videos que permitirá etiquetar datos de
una forma bastante fiable y rápida.
Para poder etiquetar los datos de una forma semi-automática seguimos un procedimiento
de 3 fases. En primer lugar el programa detecta los objetos que aparecen en
las imágenes y extrae las trayectorias de los objetos en movimiento. A continuación,
etiquetamos a mano las diferentes trayectorias. Finalmente, el programa extraerá
para cada trayectoria tanto su etiqueta como todas las apariciones del objeto en los
diferentes fotogramas del vídeo.
Con el filtro de Kalman detectamos las trayectorias del los objetos a lo largo del
vídeo, que a su vez son detectados en la imagen mediante una segmentación que
está basada en mapas auto-organizados. Envolveremos nuestro desarrollo bajo una
interfaz pensada para que sea fácil de utilizar. El código de la aplicación ha sido implementado
en Matlab, que es un lenguaje que destaca por su versatilidad y rapidez
al trabajar con imágenes. La interfaz se basa también en Matlab, concretamente usa
la librería Matlab appdesigner para el diseño de interfaces.