Skill Disentanglement for Imitation Learning from Suboptimal Demonstrations

要約

模倣学習は、収集された人間のデモンストレーションを模倣することによって神経エージェントを学習する、多くの連続的な意思決定タスクで大きな成功を収めています。
ただし、既存のアルゴリズムでは通常、収集が困難で費用がかかる高品質のデモンストレーションを大量に必要とします。
通常、実際にはデモンストレーションの質と量の間でトレードオフを行う必要があります。
この問題をターゲットとして、この研究では、小規模でクリーンなデモンストレーション セットと大きなノイズの多いデモンストレーション セットの両方を使用して、次善のデモンストレーションの模倣を検討します。
いくつかの先駆的な研究が提案されていますが、それらには多くの制限があります。たとえば、デモンストレーションがタイムステップ全体にわたって同じ最適性であると仮定し、ノイズの多いセットから学習した知識を考慮した解釈を提供できないなどです。
これらの問題に対処するために、サブデモンストレーション レベルで評価および模倣し、さまざまな品質のアクション プリミティブをさまざまなスキルにエンコードすることで {\method} を提案します。
具体的には、{\method} は、スキルを発見するための高レベルのコントローラーと、行動を起こすポリシーを把握するためのスキル条件付きモジュールで構成され、最初にすべてのデモンストレーションでスキルを発見し、次にコントローラーを適応させるという 2 フェーズのパイプラインに従ってトレーニングされます。
クリーンセットのみに。
相互情報ベースの正則化と動的サブデモンストレーション最適性推定ツールは、スキル空間のもつれの解消を促進するように設計されています。
2 つのジム環境と現実世界のヘルスケア データセットに対して広範な実験が行われ、最適ではないデモンストレーションから学習する際の {\method} の優位性と、学習したスキルを調べることによる解釈可能性の向上を実証しました。

要約(オリジナル)

Imitation learning has achieved great success in many sequential decision-making tasks, in which a neural agent is learned by imitating collected human demonstrations. However, existing algorithms typically require a large number of high-quality demonstrations that are difficult and expensive to collect. Usually, a trade-off needs to be made between demonstration quality and quantity in practice. Targeting this problem, in this work we consider the imitation of sub-optimal demonstrations, with both a small clean demonstration set and a large noisy set. Some pioneering works have been proposed, but they suffer from many limitations, e.g., assuming a demonstration to be of the same optimality throughout time steps and failing to provide any interpretation w.r.t knowledge learned from the noisy set. Addressing these problems, we propose {\method} by evaluating and imitating at the sub-demonstration level, encoding action primitives of varying quality into different skills. Concretely, {\method} consists of a high-level controller to discover skills and a skill-conditioned module to capture action-taking policies, and is trained following a two-phase pipeline by first discovering skills with all demonstrations and then adapting the controller to only the clean set. A mutual-information-based regularization and a dynamic sub-demonstration optimality estimator are designed to promote disentanglement in the skill space. Extensive experiments are conducted over two gym environments and a real-world healthcare dataset to demonstrate the superiority of {\method} in learning from sub-optimal demonstrations and its improved interpretability by examining learned skills.

arxiv情報

著者 Tianxiang Zhao,Wenchao Yu,Suhang Wang,Lu Wang,Xiang Zhang,Yuncong Chen,Yanchi Liu,Wei Cheng,Haifeng Chen
発行日 2023-06-13 17:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク