要約
この論文では、与えられた質問に答えるために、ロボットが環境を変更するための操作アクションを実行する、新しいタスクである操作質問応答 (MQA) を提案します。
この問題を解決するために、QA モジュールと操作モジュールからなるフレームワークが提案されています。
QA モジュールでは、Visual Question Answering (VQA) タスクの方法を採用しています。
操作モジュールの場合、Deep Q Network (DQN) モデルは、ロボットが環境と対話するための操作アクションを生成するように設計されています。
質問に対する答えが見つかるまで、ロボットがビン内のオブジェクトを操作し続ける状況を考えます。
さらに、さまざまなオブジェクト モデル、シナリオ、および対応する質問と回答のペアを含む新しいデータセットが、シミュレーション環境で確立されます。
提案されたフレームワークの有効性を検証するために、広範な実験が行われました。
要約(オリジナル)
In this paper, we propose a novel task, Manipulation Question Answering (MQA), where the robot performs manipulation actions to change the environment in order to answer a given question. To solve this problem, a framework consisting of a QA module and a manipulation module is proposed. For the QA module, we adopt the method for the Visual Question Answering (VQA) task. For the manipulation module, a Deep Q Network (DQN) model is designed to generate manipulation actions for the robot to interact with the environment. We consider the situation where the robot continuously manipulating objects inside a bin until the answer to the question is found. Besides, a novel dataset that contains a variety of object models, scenarios and corresponding question-answer pairs is established in a simulation environment. Extensive experiments have been conducted to validate the effectiveness of the proposed framework.
arxiv情報
著者 | Yuhong Deng,Di Guo,Xiaofeng Guo,Naifu Zhang,Huaping Liu,Fuchun Sun |
発行日 | 2023-02-21 05:20:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google