要約
乱雑な環境で物体を処理できる機能は、ロボット コミュニティによって長い間期待されてきました。
ただし、ほとんどの作品は、雑然としたオブジェクトの中に隠された意味情報をレンダリングするのではなく、単に操作に焦点を当てています。
この作品では、この問題を解決するために、乱雑なシナリオで具体的な探索を行うためのシーン グラフを導入します。
乱雑なシナリオで手法を検証するために、操作質問応答 (MQA) タスクをテスト ベンチマークとして採用します。これには、身体化されたロボットが視覚と言語の能動的な探索能力と意味論的理解能力を備えている必要があります。
課題に対して、探索のための操作を生成する模倣学習手法を提案します。
一方、動的なシーン グラフに基づく VQA モデルは、マニピュレーターのリスト カメラからの一連の RGB フレームを理解するために採用されており、フレームワーク内の質問に答えるために操作の各ステップが実行されます。さまざまなインタラクション要件を備えた MQA データセットの実験は、次のことを示しています。
乱雑なシナリオのタスクの代表である MQA タスクに対して、私たちが提案したフレームワークが有効であることがわかりました。
要約(オリジナル)
The ability to handle objects in cluttered environment has been long anticipated by robotic community. However, most of works merely focus on manipulation instead of rendering hidden semantic information in cluttered objects. In this work, we introduce the scene graph for embodied exploration in cluttered scenarios to solve this problem. To validate our method in cluttered scenario, we adopt the Manipulation Question Answering (MQA) tasks as our test benchmark, which requires an embodied robot to have the active exploration ability and semantic understanding ability of vision and language.As a general solution framework to the task, we propose an imitation learning method to generate manipulations for exploration. Meanwhile, a VQA model based on dynamic scene graph is adopted to comprehend a series of RGB frames from wrist camera of manipulator along with every step of manipulation is conducted to answer questions in our framework.The experiments on of MQA dataset with different interaction requirements demonstrate that our proposed framework is effective for MQA task a representative of tasks in cluttered scenario.
arxiv情報
著者 | Yuhong Deng,Qie Sima,Di Guo,Huaping Liu,Yi Wang,Fuchun Sun |
発行日 | 2023-10-16 14:54:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google