要約
模倣学習は、専門家のデモンストレーションから学ぶことにより、ロボットに多用途のスキルを装備するという約束を抱いています。
ただし、有限のデータセットでトレーニングされたポリシーは、トレーニングの分布を超えて一般化するのに苦労しています。
この作業では、模倣学習の一般化能力に関する統一された視点を提示します。
まず、一般化のギャップは、(i)中間表現に関する条件付き情報ボトルネックと、(ii)モデルパラメーターとトレーニングデータセットの間の相互情報によって上限になる可能性があることを示します。
この特性評価は、模倣学習における効果的なトレーニング戦略を設計するための理論的ガイダンスを提供します。特に、より良い一般化を実現するために、大規模な事前に守られたエンコーダ(視覚言語モデルやビジョン基礎モデルなど)をゼロから凍結、微調整、または訓練するかどうかを決定します。
さらに、入力から出力への高い条件付きエントロピーは、より平坦な尤度景観を誘発し、それによって一般化ギャップの上限を減らすことを実証します。
さらに、鋭い局所ミニマからの確率的勾配降下(SGD)エスケープ時間を短縮し、固定最適化予算の下でグローバルオプティマに到達する可能性を高める可能性があります。
これらの洞察は、模倣学習がしばしば限られた一般化を示す理由を説明し、入力データの多様性をスケーリングするだけでなく、同じ入力に条件付けられた出力ラベルの変動性を強化することの重要性を強調しています。
要約(オリジナル)
Imitation learning holds the promise of equipping robots with versatile skills by learning from expert demonstrations. However, policies trained on finite datasets often struggle to generalize beyond the training distribution. In this work, we present a unified perspective on the generalization capability of imitation learning, grounded in both information theorey and data distribution property. We first show that the generalization gap can be upper bounded by (i) the conditional information bottleneck on intermediate representations and (ii) the mutual information between the model parameters and the training dataset. This characterization provides theoretical guidance for designing effective training strategies in imitation learning, particularly in determining whether to freeze, fine-tune, or train large pretrained encoders (e.g., vision-language models or vision foundation models) from scratch to achieve better generalization. Furthermore, we demonstrate that high conditional entropy from input to output induces a flatter likelihood landscape, thereby reducing the upper bound on the generalization gap. In addition, it shortens the stochastic gradient descent (SGD) escape time from sharp local minima, which may increase the likelihood of reaching global optima under fixed optimization budgets. These insights explain why imitation learning often exhibits limited generalization and underscore the importance of not only scaling the diversity of input data but also enriching the variability of output labels conditioned on the same input.
arxiv情報
著者 | Yixiao Wang |
発行日 | 2025-04-25 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google