The Pitfalls of Imitation Learning when Actions are Continuous

要約

私たちは、離散時間の連続状態と行動制御システムで専門家のデモンストレーターを模倣する問題を研究します。
ダイナミクスが安定していて(つまり、指数関数的に迅速に収縮する)、専門家がスムーズで決定論的であるとしても、スムーズで決定論的な模倣者ポリシーは、エキスパートトレーニングデータの分布の下でのエラーよりも、問題の地平線の関数として指数関数的に大きい実行に必然的にエラーに苦しむことを示します。
私たちの否定的な結果は、非常に「不適切な」模倣者ポリシーを生成しない限り、動作のクローニングとオフラインRLアルゴリズムの両方に適用されます。これらは、滑らかで、非マルコビアンである、または高度な状態依存性の確率を示すか、または専門家の旅行の分布が十分に「広がる」場合を除きます。
これらのより複雑なポリシーパラメーター化の利点の実験的証拠を提供し、ロボット学習における今日の一般的なポリシーパラメーター化の利点(アクションチャンキングおよび拡散ポリシーなど)を説明します。
また、制御システムでの模倣のために、多数の相補的な否定的および肯定的な結果を確立します。

要約(オリジナル)

We study the problem of imitating an expert demonstrator in a discrete-time, continuous state-and-action control system. We show that, even if the dynamics are stable (i.e. contracting exponentially quickly), and the expert is smooth and deterministic, any smooth, deterministic imitator policy necessarily suffers error on execution that is exponentially larger, as a function of problem horizon, than the error under the distribution of expert training data. Our negative result applies to both behavior cloning and offline-RL algorithms, unless they produce highly ‘improper’ imitator policies–those which are non-smooth, non-Markovian, or which exhibit highly state-dependent stochasticity–or unless the expert trajectory distribution is sufficiently ‘spread.’ We provide experimental evidence of the benefits of these more complex policy parameterizations, explicating the benefits of today’s popular policy parameterizations in robot learning (e.g. action-chunking and Diffusion Policies). We also establish a host of complementary negative and positive results for imitation in control systems.

arxiv情報

著者 Max Simchowitz,Daniel Pfrommer,Ali Jadbabaie
発行日 2025-03-19 14:37:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, stat.ML パーマリンク