Semantic Scene Difference Detection in Daily Life Patroling by Mobile Robots using Pre-Trained Large-Scale Vision-Language Model

要約

生活支援ロボットは環境の変化を検知して作業を行うことが重要です。
コンピュータビジョンにおける異常検出の分野では、画像距離の計算に確率論的手法と深層学習手法が使用されてきました。
これらの方法は、画像のピクセルに焦点を当てて距離を計算します。
対照的に、この研究は、現在開発されている大規模な視覚言語モデルを使用して、日常生活環境における意味の変化を検出することを目的としています。
Visual Question Answering (VQA) モデルを使用して、参照画像と現在の画像に複数の質問を適用し、文章の形で回答を得ることで意味の変化を検出する方法を提案します。
異常検出における深層学習ベースの方法とは異なり、この方法はトレーニングや微調整を必要とせず、ノイズの影響を受けず、現実世界の意味論的な状態の変化に敏感です。
実験では、移動ロボット「Fetch Mobile Manipulator」を用いた現実環境での巡回業務にこの手法を適用し、その有効性を実証しました。
将来的には、日常生活環境の変化に対して音声言語による説明力を付加することができるかもしれません。

要約(オリジナル)

It is important for daily life support robots to detect changes in their environment and perform tasks. In the field of anomaly detection in computer vision, probabilistic and deep learning methods have been used to calculate the image distance. These methods calculate distances by focusing on image pixels. In contrast, this study aims to detect semantic changes in the daily life environment using the current development of large-scale vision-language models. Using its Visual Question Answering (VQA) model, we propose a method to detect semantic changes by applying multiple questions to a reference image and a current image and obtaining answers in the form of sentences. Unlike deep learning-based methods in anomaly detection, this method does not require any training or fine-tuning, is not affected by noise, and is sensitive to semantic state changes in the real world. In our experiments, we demonstrated the effectiveness of this method by applying it to a patrol task in a real-life environment using a mobile robot, Fetch Mobile Manipulator. In the future, it may be possible to add explanatory power to changes in the daily life environment through spoken language.

arxiv情報

著者 Yoshiki Obinata,Kento Kawaharazuka,Naoaki Kanazawa,Naoya Yamaguchi,Naoto Tsukamoto,Iori Yanokura,Shingo Kitagawa,Koki Shinjo,Kei Okada,Masayuki Inaba
発行日 2023-09-28 16:02:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク