Teses e dissertações

Mestrado
Informática e Gestão
Título

Reconhecimento de interações cliente-produto em espaços de vendas

Autor
Gracias, Francisco Marques
Resumo
pt
O reconhecimento de atividades humanas baseado em visão por computadores é uma área de investigação desafiante com crescente interesse entre os investigadores e empresas. Com a introdução de sensores RGB-D, que adiciona a dimensão de profundidade às câmeras convencionais, é possível gerar modelos de esqueletos em tempo real. Com base em atributos extraídos do esqueleto e em modelos de aprendizagem automática treinados é possível reconhecer as atividades humanas. Nesta dissertação, propõe-se um modelo para reconhecer interações de clientes com produtos em prateleiras de lojas com base em informação do esqueleto e RGB-D, assim como algoritmos existentes para deteção de objetos e gestos. Estes algoritmos são interligados num único sistema e testados num ambiente de loja simulado, caracterizado por interações humano-objeto, necessidade de acompanhar simultaneamente diferentes atividades de clientes em tempo real e um ângulo de visão típico de câmeras em lojas (vista superior) que potencia oclusões entre sujeitos ou partes do corpo deste. As principais contribuições deste estudo são a introdução de um novo modelo que combina reconhecimento de objetos e gestos e a análise detalhada dos resultados sobre diversas perspetivas consideradas pertinentes. Acresce o conjunto de dados recolhido que está disponível para fins de investigação, como o desenvolvimento, melhoria e comparação de desempenho de modelos destinados a este contexto aplicacional. Três cenários com quatro tipos de produto e graus de complexidade distintos são avaliados - um único cliente a interagir com duas prateleiras, dois clientes e uma prateleira para cada e dois clientes disputando duas prateleiras. No modelo desenvolvido, o reconhecimento de interações com a prateleira passa pela deteção de extensões e flexões do braço trama-a-trama, que posteriormente são generalizadas em gestos e interações para um intervalo de tramas. O modelo desenvolvido apresenta um f1-score médio de 69,78% para deteção da extensão/flexão do braço e 66,46% para deteção do tipo de produto. Com base na agregação de informações de deteção de objetos e gestos, são reconhecidas 53.97% das interações de prateleira testadas (recall) e detetadas corretamente 30.47% das vezes (precision).
en
Computer vision-based human activities recognition is a challenging research area with increasing interest amongst researchers and companies. The introduction of RGB-D sensors. which add the depth dimension to the conventional colored 2D cameras, allows real-time skeleton model generation of humans. This skeleton data provides meaningful information that enabled researchers to model human activities by training machine learning models and later utilize them to recognize activities. In this dissertation, we propose a model to recognize customer interactions with products in store’s shelves based on RGB-D and skeleton data, as well as existing algorithms for gesture and object detection. We demonstrate how those existing algorithms perform in an integrated system tested in a simulated retail store context, particularly characterized by human-object interactions, the capacity to simultaneously track in real-time different customer’s activities and a field of view captured by the sensor that is typical in retail environments (top view), which makes it prone to occlusions between subjects and body parts. The main contributions of our study are the introduction of a novel model that combines object and gesture recognition as well as detailed performance metrics regarding different analytical perspectives. The collected dataset is available for researching purposes, namely to allow different model’s development, improvement and performance comparison in this specific research area. Three scenarios with four types of products and different recognition complexities are evaluated – a single customer interacting with two shelves, two customers interacting with a one shelf each and two customers disputing two shelves. In the developed model, recognizing shelf interactions is done through the generalization of frame by frame arm extension/flexion detections in gestures and interactions regarding specific frame intervals. The developed model has a f1-score of 69.78% for arm extension/flexion detection and 66.46% for product type detection. Based on the aggregation of gesture and object detection information we recognize 53.97% of the existing shelf interactions (recall) with a precision of 30.47%.

Data

06-ago-2019

Palavras-chave

Comportamento do consumidor
3D
Sensor
Informática de gestão
Estabelecimento comercial
Visão computacional
Reconhecimento de padrões
Interacção entre agentes
Customer action detection
Shelf interaction classification
Skeleton tracking
Product detection
Gesture recognition

Acesso

Acesso livre

Ver no repositório  
Voltar ao topo