要約
現実世界のさまざまなロボット タスクを計画するには、すべての制約を把握して記述する必要があります。
ただし、これらの制約が不明であるか、正確に指定することが困難な場合もあります。
考えられる解決策は、専門家のデモンストレーションから未知の制約を推測することです。
この論文では、既存の研究のように真の制約パラメータ化や環境モデルについての事前知識を必要とせずに、デモンストレーションから連続制約関数を推論するための、新しい 2 ステップのラベルなしポジティブ制約学習 (PUCL) アルゴリズムを紹介します。
私たちは、デモンストレーションのすべてのデータを肯定的な (実現可能な) データとして扱い、ラベルのないデータとして機能する、潜在的に実行不可能な軌道を生成するための制御ポリシーを学習します。
提案された 2 段階の学習フレームワークは、最初に距離メトリックを使用して信頼できる実行不可能なデータを識別し、次に、実行可能なデモンストレーションと信頼できる実行不可能なデータからバイナリの実現可能性分類器 (つまり、制約関数) を学習します。
提案された方法は、複雑な形状の制約境界を学習するのに柔軟であり、以前の方法のようにデモンストレーションを誤って実行不可能として分類することはありません。
提案された方法の有効性は、ネットワーク化されたポリシーまたは動的システム ポリシーを使用して、4 つの制約された環境で検証されます。
これは連続非線形制約の推論に成功し、制約の精度とポリシーの安全性の点で他のベースライン手法を上回ります。
この成果は、IEEE Robotics and Automation Letters (RA-L) に掲載されました。
最終バージョンは https://doi.org/10.1109/LRA.2024.3522756 で参照してください。
要約(オリジナル)
Planning for diverse real-world robotic tasks necessitates to know and write all constraints. However, instances exist where these constraints are either unknown or challenging to specify accurately. A possible solution is to infer the unknown constraints from expert demonstration. This paper presents a novel two-step Positive-Unlabeled Constraint Learning (PUCL) algorithm to infer a continuous constraint function from demonstrations, without requiring prior knowledge of the true constraint parameterization or environmental model as existing works. We treat all data in demonstrations as positive (feasible) data, and learn a control policy to generate potentially infeasible trajectories, which serve as unlabeled data. The proposed two-step learning framework first identifies reliable infeasible data using a distance metric, and secondly learns a binary feasibility classifier (i.e., constraint function) from the feasible demonstrations and reliable infeasible data. The proposed method is flexible to learn complex-shaped constraint boundary and will not mistakenly classify demonstrations as infeasible as previous methods. The effectiveness of the proposed method is verified in four constrained environments, using a networked policy or a dynamical system policy. It successfully infers the continuous nonlinear constraints and outperforms other baseline methods in terms of constraint accuracy and policy safety. This work has been published in IEEE Robotics and Automation Letters (RA-L). Please refer to the final version at https://doi.org/10.1109/LRA.2024.3522756
arxiv情報
著者 | Baiyu Peng,Aude Billard |
発行日 | 2025-01-16 10:30:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google