要約
長期的なタスクを解決する場合、高レベルのタスクをサブタスクに分解するのは興味深いことです。
エクスペリエンスを再利用可能なサブタスクに分解すると、データ効率が向上し、ポリシーの一般化が加速され、一般にマルチタスクの強化学習や模倣学習の問題に対する有望なソリューションが提供されます。
しかし、サブタスクの概念はまだ十分に理解されてモデル化されておらず、既存の研究ではデータ生成プロセスの真の構造が見落とされていることがよくあります。サブタスクは、根底にある可能性のある交絡因子ではなく、アクションに対する $\textit{selection}$ メカニズムの結果です。
または中間体。
具体的には、そのようなデータにおける選択変数の存在を特定するための理論と検証するための実験を提供します。
これらの選択は、サブタスクとガイド ポリシーを示すサブ目標として機能します。
この考えを踏まえて、これらのサブ目標を学習し、意味のある行動パターンをサブタスクとして抽出するための逐次非負行列因数分解 (seq-NMF) 手法を開発します。
困難なキッチン環境での私たちの経験的結果は、学習されたサブタスクが、マルチタスクの模倣学習シナリオにおける新しいタスクへの一般化を効果的に強化することを示しています。
コードは https://anonymous.4open.science/r/Identifying\_Selections\_for\_Unsupervised\_Subtask\_Discovery/README.md で提供されています。
要約(オリジナル)
When solving long-horizon tasks, it is intriguing to decompose the high-level task into subtasks. Decomposing experiences into reusable subtasks can improve data efficiency, accelerate policy generalization, and in general provide promising solutions to multi-task reinforcement learning and imitation learning problems. However, the concept of subtasks is not sufficiently understood and modeled yet, and existing works often overlook the true structure of the data generation process: subtasks are the results of a $\textit{selection}$ mechanism on actions, rather than possible underlying confounders or intermediates. Specifically, we provide a theory to identify, and experiments to verify the existence of selection variables in such data. These selections serve as subgoals that indicate subtasks and guide policy. In light of this idea, we develop a sequential non-negative matrix factorization (seq- NMF) method to learn these subgoals and extract meaningful behavior patterns as subtasks. Our empirical results on a challenging Kitchen environment demonstrate that the learned subtasks effectively enhance the generalization to new tasks in multi-task imitation learning scenarios. The codes are provided at https://anonymous.4open.science/r/Identifying\_Selections\_for\_Unsupervised\_Subtask\_Discovery/README.md.
arxiv情報
著者 | Yiwen Qiu,Yujia Zheng,Kun Zhang |
発行日 | 2024-10-28 23:47:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google