Monocular visual perception techniques for augmented reality and mobile robotics applications in industry

  1. Zubizarreta Gorostidi, Jon
Dirigida por:
  1. Iker Aguinaga Hoyos Director

Universidad de defensa: Universidad de Navarra

Fecha de defensa: 15 de noviembre de 2019

Tribunal:
  1. Juan Domingo Tardos Solano Presidente/a
  2. Aiert Amundarain Irizar Secretario
  3. Diego Borro Yagüez Vocal
  4. Ibai Leizea Alonso Vocal
  5. Javier González Jiménez Vocal

Tipo: Tesis

Teseo: 151956 DIALNET lock_openDadun editor

Resumen

Los avances actuales en las tecnologías de comunicación y computación están teniendo un gran impacto en la industria, conduciendo a la que se conoce como la cuarta revolución industrial o Industria 4.0. Uno de los principales retos es proporcionar a las máquinas la inteligencia necesaria para imitar las funciones cognitivas de la mente humana. En este contexto, la percepción e interpretación del mundo que nos rodea es una de las capacidades principales. Para este propósito, la visión por computador es una solución muy usada debido a su versatilidad y bajo coste de implementación de los sensores ópticos. Esta tesis estudia dos técnicas de percepción visual diferentes: reconocimiento de objetos y localización y mapeo simultáneos (SLAM por sus siglas en inglés). Las soluciones propuestas se centran en una única cámara (monocular) en entornos industriales. Esto es un desafío debido a la falta de superficies con textura en la escena, cambios de iluminación no controlados, materiales no-Lambertianos – que producen muchos reflejos – y escenas abarrotadas. Ambos problemas consisten en comprender la escena y determinar el movimiento de la cámara con la mayor precisión posible. El reconocimiento de objetos se enfoca en identificar objetos objetivo en la escena, mientras que el SLAM pretende recuperar la estructura tridimensional de la escena. La primera parte de esta tesis propone un nuevo método de reconocimiento de objetos basado en modelos que utiliza propiedades geométricas de los mismos. Combina cónicas de la superficie del modelo y plantillas de aristas para reducir el espacio de búsqueda en la imagen, aumentando la solidez de la localización y reduciendo el tiempo de cálculo. Además, el método propuesto se integra en un sistema industrial completo de realidad aumentada (RA), llamado ARgitu, empleado para el guiado en el mantenimiento. El sistema genera y presenta información virtual y aumentada, incluyendo las herramientas necesarias para el desarrollo de nuevos contenidos y adaptar las aplicaciones de tecnología RA en la industria de fabricación avanzada. La segunda parte de esta tesis presenta un sistema de SLAM monocular directo, llamado Direct Sparse Mapping (DSM). El método utiliza una formulación directa dentro de una infraestructura de mapeo para localizar la posición de la cámara en la escena y construir un mapa global consistente. Hasta donde sabemos, es el primer enfoque de SLAM totalmente directo que reutilice reobservaciones de los puntos del mapa. Como método directo, no depende de emparejamientos entre puntos y puede trabajar con puntos muestreados a través de las aristas en una imagen – en lugar de esquinas únicamente – y obtener una reconstrucción más descriptiva a pesar de utilizar una representación de puntos dispersa. Además, el sistema es robusto contra escenas con poca textura y desenfoques debido al movimiento. La extensa validación experimental demuestra que la infraestructura de mapeo directa que se propone supera a los enfoques de odometría directa actuales – incluso con cierre de bucle – tanto en la trayectoria estimada como en la precisión del mapa.