要約
現実世界のさまざまなタスクを計画するには、すべての制約を把握して記述する必要があります。
ただし、これらの制約が不明であるか、正確に指定することが困難な場合もあります。
考えられる解決策は、専門家のデモンストレーションから未知の制約を推測することです。
これまでの研究の大部分は、単純な線形制約の学習に限定されているか、真の制約パラメータ化または環境モデルについての深い知識を必要としていました。
これらの問題を軽減するために、この論文では、デモンストレーションから連続的で任意の、場合によっては非線形の制約を推測するためのポジティブ非ラベル (PU) 学習アプローチを紹介します。
PU 学習の観点から、デモンストレーション内のすべてのデータを肯定的な (実現可能な) データとして扱い、(準) 最適なポリシーを学習して、高い報酬を獲得できるが実現不可能な可能性のある軌道を生成します。これは、実現可能と実現不可能の両方を含むラベルなしのデータとして機能します。
州。
データ分布に関する仮定の下で、後処理 PU 学習手法を通じて 2 つのデータセットから実現可能-不可能な分類器 (つまり、制約モデル) が学習されます。
メソッド全体では、より高い報酬のポリシーを生成および選択するポリシーの更新と、制約モデルの更新を交互に行う反復フレームワークが採用されています。
さらに、忘れを防ぐために、以前の反復からのサンプルを記録して再利用するためにメモリ バッファーが導入されました。
提案された手法の有効性は 2 つの Mujoco 環境で検証され、連続非線形制約の推論に成功し、制約精度とポリシーの安全性の点でベースライン手法を上回りました。
要約(オリジナル)
Planning for a wide range of real-world tasks necessitates to know and write all constraints. However, instances exist where these constraints are either unknown or challenging to specify accurately. A possible solution is to infer the unknown constraints from expert demonstration. The majority of prior works limit themselves to learning simple linear constraints, or require strong knowledge of the true constraint parameterization or environmental model. To mitigate these problems, this paper presents a positive-unlabeled (PU) learning approach to infer a continuous, arbitrary and possibly nonlinear, constraint from demonstration. From a PU learning view, We treat all data in demonstrations as positive (feasible) data, and learn a (sub)-optimal policy to generate high-reward-winning but potentially infeasible trajectories, which serve as unlabeled data containing both feasible and infeasible states. Under an assumption on data distribution, a feasible-infeasible classifier (i.e., constraint model) is learned from the two datasets through a postprocessing PU learning technique. The entire method employs an iterative framework alternating between updating the policy, which generates and selects higher-reward policies, and updating the constraint model. Additionally, a memory buffer is introduced to record and reuse samples from previous iterations to prevent forgetting. The effectiveness of the proposed method is validated in two Mujoco environments, successfully inferring continuous nonlinear constraints and outperforming a baseline method in terms of constraint accuracy and policy safety.
arxiv情報
著者 | Baiyu Peng,Aude Billard |
発行日 | 2024-07-23 14:00:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google