Task-Agnostic Learning to Accomplish New Tasks

要約

強化学習 (RL) と模倣学習 (IL) は、近年、ロボット制御において大きな進歩を遂げました。
ただし、これらの方法は、アクションの新しい組み合わせによって完了する必要がある新しいタスクの明らかな劣化を示しています。
RL メソッドは、新しいタスクをうまく一般化できない報酬関数に大きく依存していますが、IL メソッドは、新しいタスクをカバーしていない専門家によるデモンストレーションによって制限されています。
対照的に、人間は、タスクにとらわれない経験から学んだ断片的な知識を使用して、これらのタスクを簡単に完了することができます。
この観察に着想を得て、この論文では、タスクに依存しないデータから断片化された知識を学習して新しいタスクを達成できる、タスクに依存しない学習方法 (略して TAL) を提案します。
TAL は 4 つのステージで構成されています。
まず、環境との相互作用からデータを収集するために、タスクに依存しない探索が実行されます。
収集されたデータは、ナレッジ グラフによって整理されます。
以前のシーケンシャル構造と比較して、ナレッジ グラフ表現はよりコンパクトであり、環境探索により適しています。
第二に、行動特徴抽出器が提案され、収集されたナレッジグラフデータを使用して、タスクに依存しない断片化された知識学習のためにトレーニングされます。
第3に、アクション特徴抽出器を新しいタスクに適用して複数の候補アクションセットを生成する候補アクションジェネレータが設計される。
最後に、アクション提案は、環境情報に従って新しいタスクでのアクションの確率を生成するように設計されています。
次に、確率を使用して、複数の候補アクション セットから実行するアクションを選択し、計画を作成します。
仮想屋内シーンでの実験では、提案された方法が最先端のオフライン RL メソッド (CQL は 35.28%、IL メソッド: BC は 22.22%) よりも優れていることが示されています。

要約(オリジナル)

Reinforcement Learning (RL) and Imitation Learning (IL) have made great progress in robotic control in recent years. However, these methods show obvious deterioration for new tasks that need to be completed through new combinations of actions. RL methods heavily rely on reward functions that cannot generalize well for new tasks, while IL methods are limited by expert demonstrations which do not cover new tasks. In contrast, humans can easily complete these tasks with the fragmented knowledge learned from task-agnostic experience. Inspired by this observation, this paper proposes a task-agnostic learning method (TAL for short) that can learn fragmented knowledge from task-agnostic data to accomplish new tasks. TAL consists of four stages. First, the task-agnostic exploration is performed to collect data from interactions with the environment. The collected data is organized via a knowledge graph. Compared with the previous sequential structure, the knowledge graph representation is more compact and fits better for environment exploration. Second, an action feature extractor is proposed and trained using the collected knowledge graph data for task-agnostic fragmented knowledge learning. Third, a candidate action generator is designed, which applies the action feature extractor on a new task to generate multiple candidate action sets. Finally, an action proposal is designed to produce the probabilities for actions in a new task according to the environmental information. The probabilities are then used to select actions to be executed from multiple candidate action sets to form the plan. Experiments on a virtual indoor scene show that the proposed method outperforms the state-of-the-art offline RL method: CQL by 35.28% and the IL method: BC by 22.22%.

arxiv情報

著者 Xianqi Zhang,Xingtao Wang,Xu Liu,Wenrui Wang,Xiaopeng Fan,Debin Zhao
発行日 2023-02-16 09:47:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク