要約
ロボットにおける物体や環境の状態認識は、さまざまな方法で行われています。
ほとんどの場合、これは点群の処理、注釈付きの画像の学習、および特殊なセンサーの使用によって実行されます。
対照的に、この研究では、大規模なデータセットからトレーニングされた事前トレーニング済みの視覚言語モデル (PTVLM) で視覚的質問応答 (VQA) を適用する状態認識方法を提案します。
VQAを利用することで、ロボットの状態認識を直感的に話し言葉で表現することができます。
一方で、同じ事象についても様々な問い方が考えられ、問いによって状態認識の性能が異なる。
そこで、VQA を用いた状態認識の性能を向上させるために、遺伝的アルゴリズムを用いて適切な質問の組み合わせを探索します。
冷蔵庫の扉の開閉やディスプレイのON/OFFだけでなく、これまで認識が難しかった透明扉の開閉や水の状態も認識できることを示しました。
要約(オリジナル)
State recognition of objects and environment in robots has been conducted in various ways. In most cases, this is executed by processing point clouds, learning images with annotations, and using specialized sensors. In contrast, in this study, we propose a state recognition method that applies Visual Question Answering (VQA) in a Pre-Trained Vision-Language Model (PTVLM) trained from a large-scale dataset. By using VQA, it is possible to intuitively describe robotic state recognition in the spoken language. On the other hand, there are various possible ways to ask about the same event, and the performance of state recognition differs depending on the question. Therefore, in order to improve the performance of state recognition using VQA, we search for an appropriate combination of questions using a genetic algorithm. We show that our system can recognize not only the open/closed of a refrigerator door and the on/off of a display, but also the open/closed of a transparent door and the state of water, which have been difficult to recognize.
arxiv情報
著者 | Kento Kawaharazuka,Yoshiki Obinata,Naoaki Kanazawa,Kei Okada,Masayuki Inaba |
発行日 | 2023-03-09 05:55:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google