Principled Out-of-Distribution Generalization via Simplicity

要約

現代の基礎モデルは、顕著な分散排出(OOD)一般化を示し、トレーニングデータのサポートをはるかに超えてタスクを解決します。
しかし、この現象を支える理論的原則はとらえどころのないままです。
このペーパーでは、画像生成における拡散モデルの組成一般化能力を調べることにより、この問題を調査します。
私たちの分析により、ニューラルネットワークアーキテクチャは、OOD入力の望ましくない動作を持つ多くの人を含む幅広いモデルを表すほど十分に表現力がありますが、人間の期待に沿った真の一般化可能なモデルは、通常、トレーニングデータと一致するものの間で最も単純なものに対応するものです。
この観察に動機付けられて、事前に定義されたシンプルさのメトリックを使用して定量化されたシンプルさを介して、OOD一般化のための理論的枠組みを開発します。
2つの重要なレジームを分析します。(1)一定のギャップ設定。真のモデルは、固定ギャップによってすべての偽の代替品よりも厳密に単純です。
両方の体制について、正規化された最尤推定器を研究し、真の一般化可能な単純なモデルを学習するための最初のシャープなサンプルの複雑さの保証を確立します。

要約(オリジナル)

Modern foundation models exhibit remarkable out-of-distribution (OOD) generalization, solving tasks far beyond the support of their training data. However, the theoretical principles underpinning this phenomenon remain elusive. This paper investigates this problem by examining the compositional generalization abilities of diffusion models in image generation. Our analysis reveals that while neural network architectures are expressive enough to represent a wide range of models — including many with undesirable behavior on OOD inputs — the true, generalizable model that aligns with human expectations typically corresponds to the simplest among those consistent with the training data. Motivated by this observation, we develop a theoretical framework for OOD generalization via simplicity, quantified using a predefined simplicity metric. We analyze two key regimes: (1) the constant-gap setting, where the true model is strictly simpler than all spurious alternatives by a fixed gap, and (2) the vanishing-gap setting, where the fixed gap is replaced by a smoothness condition ensuring that models close in simplicity to the true model yield similar predictions. For both regimes, we study the regularized maximum likelihood estimator and establish the first sharp sample complexity guarantees for learning the true, generalizable, simple model.

arxiv情報

著者 Jiawei Ge,Amanda Wang,Shange Tang,Chi Jin
発行日 2025-05-28 17:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク