要約
行動のクローニングは、一般的な模倣学習パラダイムです。
動作クローン作成では、ロボットは専門家のデモンストレーションを収集し、専門家がとったアクションに一致するポリシーをトレーニングします。
これは、ロボット学習者が専門家がすでに正しい動作を実証している状態を訪問する場合にうまく機能します。
しかし必然的に、ロボットはトレーニング データセットの外の新しい状態にも遭遇することになります。
ロボット学習者がこれらの新しい状態で間違ったアクションをとった場合、トレーニング データからさらに遠ざかってしまう可能性があり、その結果、ますます間違ったアクションが発生し、エラーが複合化することにつながります。
既存の研究では、トレーニング データを増強または強化することで、この根本的な課題に対処しようとしています。
対照的に、私たちの論文では、動作複製ポリシーの制御理論的特性を開発します。
具体的には、システムの現在の状態とエキスパート データセット内の状態の間の誤差ダイナミクスを考慮します。
エラーダイナミクスから、安定性のためのモデルベース条件とモデルフリー条件を導き出します。これらの条件下では、ロボットは現在の動作がエキスパート データセット内のサンプル動作に収束するようにポリシーを形成します。
実際には、これにより、共変量シフトに対して堅牢であることが証明されている、標準的な動作クローニングの実装が簡単な拡張である Stable-BC が得られます。
インタラクティブ、非線形、視覚的な環境を使用したシミュレーションでアルゴリズムの有効性を実証します。
Stable-BCを使ってロボットアームでエアホッケーをする実験も行っています。
当社のウェブサイトはこちらからご覧ください: https://collab.me.vt.edu/Stable-BC/
要約(オリジナル)
Behavior cloning is a common imitation learning paradigm. Under behavior cloning the robot collects expert demonstrations, and then trains a policy to match the actions taken by the expert. This works well when the robot learner visits states where the expert has already demonstrated the correct action; but inevitably the robot will also encounter new states outside of its training dataset. If the robot learner takes the wrong action at these new states it could move farther from the training data, which in turn leads to increasingly incorrect actions and compounding errors. Existing works try to address this fundamental challenge by augmenting or enhancing the training data. By contrast, in our paper we develop the control theoretic properties of behavior cloned policies. Specifically, we consider the error dynamics between the system’s current state and the states in the expert dataset. From the error dynamics we derive model-based and model-free conditions for stability: under these conditions the robot shapes its policy so that its current behavior converges towards example behaviors in the expert dataset. In practice, this results in Stable-BC, an easy to implement extension of standard behavior cloning that is provably robust to covariate shift. We demonstrate the effectiveness of our algorithm in simulations with interactive, nonlinear, and visual environments. We also conduct experiments where a robot arm uses Stable-BC to play air hockey. See our website here: https://collab.me.vt.edu/Stable-BC/
arxiv情報
著者 | Shaunak A. Mehta,Yusuf Umut Ciftci,Balamurugan Ramachandran,Somil Bansal,Dylan P. Losey |
発行日 | 2024-08-12 15:56:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google