To the Noise and Back: Diffusion for Shared Autonomy

要約

共有自律性は、ユーザーと自律エージェントが協力してロボット システムを制御する運用概念です。
これは、多くの設定において、完全遠隔操作と完全自律性の極端な点に比べて、多くの利点をもたらします。
共有自律性への従来のアプローチは、環境のダイナミクスに関する知識、アプリオリに知られているユーザー目標の離散空間、またはユーザーのポリシーに関する知識に依存しています。これらの仮定は、多くの領域では非現実的です。
最近の研究では、モデルフリーの深層強化学習 (RL) を使用して共有自律性を定式化することで、これらの仮定の一部を緩和しています。
特に、目標空間 (目標が離散的または制約されているなど) や環境力学に関する知識はもはや必要ありません。
ただし、ポリシーをトレーニングするには、タスク固有の報酬関数に関する知識が必要です。
残念ながら、このような報酬の指定は困難で脆弱なプロセスになる可能性があります。
さらに、その策定は本質的に人間参加型のトレーニングに依存しているため、ユーザーの行動を模倣するポリシーを準備する必要があります。
この論文では、拡散モデルの順拡散プロセスと逆拡散プロセスの調整を採用した、共有自律性への新しいアプローチを紹介します。
私たちのアプローチは、既知の環​​境ダイナミクスやユーザー目標の空間を想定しておらず、以前の研究とは対照的に、報酬フィードバックもトレーニング中にユーザーのポリシーにアクセスする必要もありません。
代わりに、私たちのフレームワークは、望ましい動作の空間全体にわたる分布を学習します。
次に、拡散モデルを使用して、ユーザーのアクションをこの分布からのサンプルに変換します。
重要なのは、ユーザーの制御権限を保持した方法でこのプロセスを実行できることを示していることです。
私たちは一連の困難な継続的制御タスクでフレームワークを評価し、ユーザーの自律性を維持しながらユーザーのアクションを効果的に修正するその能力を分析します。

要約(オリジナル)

Shared autonomy is an operational concept in which a user and an autonomous agent collaboratively control a robotic system. It provides a number of advantages over the extremes of full-teleoperation and full-autonomy in many settings. Traditional approaches to shared autonomy rely on knowledge of the environment dynamics, a discrete space of user goals that is known a priori, or knowledge of the user’s policy — assumptions that are unrealistic in many domains. Recent works relax some of these assumptions by formulating shared autonomy with model-free deep reinforcement learning (RL). In particular, they no longer need knowledge of the goal space (e.g., that the goals are discrete or constrained) or environment dynamics. However, they need knowledge of a task-specific reward function to train the policy. Unfortunately, such reward specification can be a difficult and brittle process. On top of that, the formulations inherently rely on human-in-the-loop training, and that necessitates them to prepare a policy that mimics users’ behavior. In this paper, we present a new approach to shared autonomy that employs a modulation of the forward and reverse diffusion process of diffusion models. Our approach does not assume known environment dynamics or the space of user goals, and in contrast to previous work, it does not require any reward feedback, nor does it require access to the user’s policy during training. Instead, our framework learns a distribution over a space of desired behaviors. It then employs a diffusion model to translate the user’s actions to a sample from this distribution. Crucially, we show that it is possible to carry out this process in a manner that preserves the user’s control authority. We evaluate our framework on a series of challenging continuous control tasks, and analyze its ability to effectively correct user actions while maintaining their autonomy.

arxiv情報

著者 Takuma Yoneda,Luzhe Sun,and Ge Yang,Bradly Stadie,Matthew Walter
発行日 2023-06-15 18:06:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク