Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations

要約

デモンストレーションからの学習 (LfD) アプローチにより、エンドユーザーは、望ましい動作のデモンストレーションを通じてロボットに新しいタスクを教えることができるようになり、ロボット工学へのアクセスが民主化されます。
ただし、現在の LfD フレームワークは、異種の人間のデモンストレーションに迅速に適応したり、ユビキタスなロボット工学アプリケーションで大規模な展開を行ったりすることはできません。
この論文では、新しい LfD フレームワークである Fast Lifelong Adaptive Inverse Reinforcement learning (FLAIR) を提案します。
私たちのアプローチは、(1)学習した戦略を活用して、新しいデモンストレーションに迅速に適応するためのポリシーの混合を構築し、エンドユーザーの迅速なパーソナライズを可能にし、(2)デモンストレーション全体で共通の知識を抽出し、正確なタスク推論を実現します。
(3) 生涯にわたる展開で必要な場合にのみモデルを拡張し、ポリシーの混合を介してすべての動作を近似できるプロトタイプの簡潔な戦略セットを維持します。
FLAIRが適応性(つまり、ロボットが異種のユーザー固有のタスク設定に適応する)、効率性(つまり、ロボットがサンプル効率の良い適応を達成する)、およびスケーラビリティ(つまり、モデルがデモンストレーションの数に応じてサブリニアに成長する)を達成することを経験的に検証します。
高いパフォーマンスを維持しながら)。
FLAIR は 3 つの制御タスク全体でベンチマークを上回り、ポリシーのリターンが平均 57% 向上し、ポリシーの混合を使用したデモ モデリングに必要なエピソードが平均 78% 少なくなっています。
最後に、卓球タスクでの FLAIR の成功を実証し、ユーザーが FLAIR をより高いタスク (p<.05) およびパーソナライゼーション (p<.05) のパフォーマンスを持っていると評価したことを発見しました。

要約(オリジナル)

Learning from Demonstration (LfD) approaches empower end-users to teach robots novel tasks via demonstrations of the desired behaviors, democratizing access to robotics. However, current LfD frameworks are not capable of fast adaptation to heterogeneous human demonstrations nor the large-scale deployment in ubiquitous robotics applications. In this paper, we propose a novel LfD framework, Fast Lifelong Adaptive Inverse Reinforcement learning (FLAIR). Our approach (1) leverages learned strategies to construct policy mixtures for fast adaptation to new demonstrations, allowing for quick end-user personalization, (2) distills common knowledge across demonstrations, achieving accurate task inference; and (3) expands its model only when needed in lifelong deployments, maintaining a concise set of prototypical strategies that can approximate all behaviors via policy mixtures. We empirically validate that FLAIR achieves adaptability (i.e., the robot adapts to heterogeneous, user-specific task preferences), efficiency (i.e., the robot achieves sample-efficient adaptation), and scalability (i.e., the model grows sublinearly with the number of demonstrations while maintaining high performance). FLAIR surpasses benchmarks across three control tasks with an average 57% improvement in policy returns and an average 78% fewer episodes required for demonstration modeling using policy mixtures. Finally, we demonstrate the success of FLAIR in a table tennis task and find users rate FLAIR as having higher task (p<.05) and personalization (p<.05) performance.

arxiv情報

著者 Letian Chen,Sravan Jayanthi,Rohan Paleja,Daniel Martin,Viacheslav Zakharov,Matthew Gombolay
発行日 2023-03-29 09:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク