要約
共有自律性は、ユーザーと自律エージェントがロボット システムを共同で制御する運用概念です。
これは、多くの設定で、完全な遠隔操作と完全な自律性の極限に勝る多くの利点を提供します。
自律性を共有するための従来のアプローチは、環境のダイナミクスに関する知識、アプリオリに知られているユーザーの目標の離散空間、またはユーザーのポリシーに関する知識に依存しています。これらの仮定は、多くのドメインでは非現実的です。
最近の研究では、共有自律性をモデルフリーの深層強化学習 (RL) で定式化することにより、これらの仮定の一部を緩和しています。
特に、目標空間 (目標が離散的または制約されているなど) や環境のダイナミクスに関する知識はもはや必要ありません。
ただし、ポリシーをトレーニングするには、タスク固有の報酬関数に関する知識が必要です。
残念ながら、そのような報酬の指定は、困難で脆弱なプロセスになる可能性があります。
その上、定式化は本質的にヒューマン・イン・ザ・ループのトレーニングに依存しているため、ユーザーの行動を模倣するポリシーを準備する必要があります。
このホワイト ペーパーでは、拡散モデルの順方向および逆方向の拡散プロセスの変調を使用する共有自律性への新しいアプローチを提示します。
私たちのアプローチは、既知の環境のダイナミクスやユーザーの目標の空間を想定しておらず、以前の研究とは対照的に、報酬のフィードバックを必要とせず、トレーニング中にユーザーのポリシーにアクセスする必要もありません。
代わりに、私たちのフレームワークは、望ましい動作の空間にわたって分布を学習します。
次に、拡散モデルを使用して、ユーザーのアクションをこの分布からのサンプルに変換します。
重要なことは、ユーザーの制御権限を保持する方法でこのプロセスを実行できることを示すことです。
一連の挑戦的な継続的な制御タスクでフレームワークを評価し、自律性を維持しながらユーザーの行動を効果的に修正する能力を分析します。
要約(オリジナル)
Shared autonomy is an operational concept in which a user and an autonomous agent collaboratively control a robotic system. It provides a number of advantages over the extremes of full-teleoperation and full-autonomy in many settings. Traditional approaches to shared autonomy rely on knowledge of the environment dynamics, a discrete space of user goals that is known a priori, or knowledge of the user’s policy — assumptions that are unrealistic in many domains. Recent works relax some of these assumptions by formulating shared autonomy with model-free deep reinforcement learning (RL). In particular, they no longer need knowledge of the goal space (e.g., that the goals are discrete or constrained) or environment dynamics. However, they need knowledge of a task-specific reward function to train the policy. Unfortunately, such reward specification can be a difficult and brittle process. On top of that, the formulations inherently rely on human-in-the-loop training, and that necessitates them to prepare a policy that mimics users’ behavior. In this paper, we present a new approach to shared autonomy that employs a modulation of the forward and reverse diffusion process of diffusion models. Our approach does not assume known environment dynamics or the space of user goals, and in contrast to previous work, it does not require any reward feedback, nor does it require access to the user’s policy during training. Instead, our framework learns a distribution over a space of desired behaviors. It then employs a diffusion model to translate the user’s actions to a sample from this distribution. Crucially, we show that it is possible to carry out this process in a manner that preserves the user’s control authority. We evaluate our framework on a series of challenging continuous control tasks, and analyze its ability to effectively correct user actions while maintaining their autonomy.
arxiv情報
著者 | Takuma Yoneda,Luzhe Sun,Bradly Stadie,Ge Yang,Matthew Walter |
発行日 | 2023-02-23 18:58:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google