Binary State Recognition by Robots using Visual Question Answering of Pre-Trained Vision-Language Model

要約

ロボットの動作には現状の認識が不可欠です。
エレベーターのドアが開いているか閉じているか、物体を正しく掴んでいるか、テレビの電源が入っているか消えているかなど、認識すべき状態はさまざまです。
これまで、これらの状態は、点群や生の画像の状態をプログラムで記述すること、画像に注釈を付けて学習すること、特殊なセンサーを使用することなどによって認識されてきました。これらの方法とは対照的に、私たちは、視覚的な質問応答 (VQA) をアプリケーションから適用します。
このようなバイナリ状態認識を行うために、大規模なデータセットでトレーニングされた事前トレーニング済み視覚言語モデル (PTVLM)。
このアイデアにより、再トレーニングを必要とせずに言語で状態認識を直観的に記述することができるようになり、単純かつ一般的な方法でロボットの認識能力を向上させることができます。
質問方法や画像処理におけるさまざまな手法をまとめ、実験を通じてその性質を明らかにします。

要約(オリジナル)

Recognition of the current state is indispensable for the operation of a robot. There are various states to be recognized, such as whether an elevator door is open or closed, whether an object has been grasped correctly, and whether the TV is turned on or off. Until now, these states have been recognized by programmatically describing the state of a point cloud or raw image, by annotating and learning images, by using special sensors, etc. In contrast to these methods, we apply Visual Question Answering (VQA) from a Pre-Trained Vision-Language Model (PTVLM) trained on a large-scale dataset, to such binary state recognition. This idea allows us to intuitively describe state recognition in language without any re-training, thereby improving the recognition ability of robots in a simple and general way. We summarize various techniques in questioning methods and image processing, and clarify their properties through experiments.

arxiv情報

著者 Kento Kawaharazuka,Yoshiki Obinata,Naoaki Kanazawa,Kei Okada,Masayuki Inaba
発行日 2023-10-25 06:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク