要約
私たちは、離散時間の連続状態と行動制御システムで専門家のデモンストレーターを模倣する問題を研究します。
ダイナミクスが指数関数的に安定性と呼ばれる制御理論特性を満たしていても(すなわち、摂動の影響が速く速く崩壊する)、専門家はスムーズで決定論的であり、スムーズで決定論的な模倣者ポリシーは、エキスパートデータの分布の下でのエラーの機能よりも、エキスパートの機能として、エキスパートの機能として、エキスパニックに大きくなります。
私たちの否定的な結果は、アルゴリズムが高度に「不適切な」模倣者ポリシーを生成しない限り、動作クローニングとオフラインRLアルゴリズムの両方を含む専門家データのみから学習する任意のアルゴリズムに適用されます。
これらのより複雑なポリシーパラメーター化の利点の実験的証拠を提供し、ロボット学習における今日の一般的なポリシーパラメーター化の利点(アクションチャンキングおよび拡散ポリシーなど)を説明します。
また、制御システムでの模倣のために、多数の相補的な否定的および肯定的な結果を確立します。
要約(オリジナル)
We study the problem of imitating an expert demonstrator in a discrete-time, continuous state-and-action control system. We show that, even if the dynamics satisfy a control-theoretic property called exponentially stability (i.e. the effects of perturbations decay exponentially quickly), and the expert is smooth and deterministic, any smooth, deterministic imitator policy necessarily suffers error on execution that is exponentially larger, as a function of problem horizon, than the error under the distribution of expert training data. Our negative result applies to any algorithm which learns solely from expert data, including both behavior cloning and offline-RL algorithms, unless the algorithm produces highly ‘improper’ imitator policies–those which are non-smooth, non-Markovian, or which exhibit highly state-dependent stochasticity–or unless the expert trajectory distribution is sufficiently ‘spread.’ We provide experimental evidence of the benefits of these more complex policy parameterizations, explicating the benefits of today’s popular policy parameterizations in robot learning (e.g. action-chunking and Diffusion Policies). We also establish a host of complementary negative and positive results for imitation in control systems.
arxiv情報
著者 | Max Simchowitz,Daniel Pfrommer,Ali Jadbabaie |
発行日 | 2025-04-15 16:25:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google