Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations

要約

タイトル:デモンストレーションからの高速ライフロング適応型逆強化学習

要約:

– LfDのアプローチは、ロボットに新しいタスクを教えるために、望ましい動作のデモンストレーションを通じてエンドユーザーに力を与え、ロボットにアクセスを民主化する。
– 現在のLfDフレームワークは、多様な人間のデモを高速で適応させたり、広範なロボティクスアプリケーションに大規模展開することはできない。
– この論文では、ライフロング適応型逆強化学習(FLAIR)という新しいLfDフレームワークを提案している。
– FLAIRは、(1)学習した戦略を利用して、新しいデモに高速で適応するためのポリシーミックスを構築し、クイックエンドユーザーパーソナライズを可能にし、(2)デモ間の共通の知識を消化し、精確なタスク推論を達成し、(3)重要なところでモデルを拡張し、方針ミックスを介してすべての行動を近似できる原型的な戦略の簡潔な集合を維持することで、生涯デプロイメントを維持する。
– FLAIRは、適応性(つまり、ロボットは多様でユーザー固有のタスクの好みに適応する)、効率性(つまり、ロボットはサンプル効率的な適応を達成する)およびスケーラビリティ(つまり、モデルは高いパフォーマンスを維持しながら、デモの数に比例せずに成長する)を実証的に検証した。
– FLAIRは、コントロールタスクでベンチマークを超え、ポリシーのリターンが平均57%向上し、ポリシーミックスを使用したデモモデリングに必要な平均エピソード数が78%減少した。
– 最後に、FLAIRの成功をテーブルテニスタスクで実証し、ユーザーがFLAIRのタスクパフォーマンス(p <.05)とパーソナライゼーション(p <.05)のパフォーマンスを高く評価していることを示している。

要約(オリジナル)

Learning from Demonstration (LfD) approaches empower end-users to teach robots novel tasks via demonstrations of the desired behaviors, democratizing access to robotics. However, current LfD frameworks are not capable of fast adaptation to heterogeneous human demonstrations nor the large-scale deployment in ubiquitous robotics applications. In this paper, we propose a novel LfD framework, Fast Lifelong Adaptive Inverse Reinforcement learning (FLAIR). Our approach (1) leverages learned strategies to construct policy mixtures for fast adaptation to new demonstrations, allowing for quick end-user personalization, (2) distills common knowledge across demonstrations, achieving accurate task inference; and (3) expands its model only when needed in lifelong deployments, maintaining a concise set of prototypical strategies that can approximate all behaviors via policy mixtures. We empirically validate that FLAIR achieves adaptability (i.e., the robot adapts to heterogeneous, user-specific task preferences), efficiency (i.e., the robot achieves sample-efficient adaptation), and scalability (i.e., the model grows sublinearly with the number of demonstrations while maintaining high performance). FLAIR surpasses benchmarks across three control tasks with an average 57% improvement in policy returns and an average 78% fewer episodes required for demonstration modeling using policy mixtures. Finally, we demonstrate the success of FLAIR in a table tennis task and find users rate FLAIR as having higher task (p<.05) and personalization (p<.05) performance.

arxiv情報

著者 Letian Chen,Sravan Jayanthi,Rohan Paleja,Daniel Martin,Viacheslav Zakharov,Matthew Gombolay
発行日 2023-04-12 14:19:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.RO パーマリンク