Scene Graph for Embodied Exploration in Cluttered Scenario

要約

雑然とした環境でオブジェクトを処理する機能は、ロボット コミュニティによって長い間期待されてきました。
ただし、ほとんどの作品は、雑然としたオブジェクトに隠された意味情報をレンダリングするのではなく、単に操作に焦点を当てています。
この作業では、この問題を解決するために、雑然としたシナリオで具現化された探索のためのシーン グラフを紹介します。
雑然としたシナリオでメソッドを検証するために、テスト ベンチマークとして操作質問応答 (MQA) タスクを採用します。これには、具体化されたロボットが視覚と言語のアクティブな探索能力と意味理解能力を備えている必要があります。
タスクでは、探索のための操作を生成するための模倣学習方法を提案します。
一方、ダイナミック シーン グラフに基づく VQA モデルを採用して、マニピュレータのリスト カメラからの一連の RGB フレームを理解するとともに、操作のすべてのステップを実行して、フレームワーク内の質問に答えます。さまざまな相互作用要件を持つ MQA データセットの実験は、
我々が提案するフレームワークは、雑然としたシナリオのタスクの代表である MQA タスクに有効であること。

要約(オリジナル)

The ability to handle objects in cluttered environment has been long anticipated by robotic community. However, most of works merely focus on manipulation instead of rendering hidden semantic information in cluttered objects. In this work, we introduce the scene graph for embodied exploration in cluttered scenarios to solve this problem. To validate our method in cluttered scenario, we adopt the Manipulation Question Answering (MQA) tasks as our test benchmark, which requires an embodied robot to have the active exploration ability and semantic understanding ability of vision and language.As a general solution framework to the task, we propose an imitation learning method to generate manipulations for exploration. Meanwhile, a VQA model based on dynamic scene graph is adopted to comprehend a series of RGB frames from wrist camera of manipulator along with every step of manipulation is conducted to answer questions in our framework.The experiments on of MQA dataset with different interaction requirements demonstrate that our proposed framework is effective for MQA task a representative of tasks in cluttered scenario.

arxiv情報

著者 Yuhong Deng,Qie Sima,Di Guo,Huaping Liu,Yi Wang,Fuchun Sun
発行日 2023-02-22 09:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク