Class-wise Generalization Error: an Information-Theoretic Analysis

要約

教師あり学習の既存の一般化理論は通常、全体的なアプローチを採用し、データ分布全体にわたって期待される一般化の限界を提供します。これは、モデルがすべてのクラスに対して同様に一般化することを暗黙的に前提としています。
ただし、実際には、異なるクラス間で汎化パフォーマンスに大きなばらつきがあり、既存の汎化限界では捉えることができません。
この研究では、個々のクラスの汎化パフォーマンスを定量化するクラス汎化誤差を理論的に研究することで、この問題に取り組みます。
KL 発散を使用してクラス汎化誤差の新しい情報理論的限界を導出し、さらに条件付き相互情報量 (CMI) を使用していくつかのより厳密な限界を取得します。これは実際には推定が非常に簡単です。
提案した境界をさまざまなニューラル ネットワークで経験的に検証し、複雑なクラス一般化エラーの動作を正確に捕捉することを示します。
さらに、この論文で開発された理論的ツールは、この文脈を超えていくつかのアプリケーションに適用できることを示します。

要約(オリジナル)

Existing generalization theories of supervised learning typically take a holistic approach and provide bounds for the expected generalization over the whole data distribution, which implicitly assumes that the model generalizes similarly for all the classes. In practice, however, there are significant variations in generalization performance among different classes, which cannot be captured by the existing generalization bounds. In this work, we tackle this problem by theoretically studying the class-generalization error, which quantifies the generalization performance of each individual class. We derive a novel information-theoretic bound for class-generalization error using the KL divergence, and we further obtain several tighter bounds using the conditional mutual information (CMI), which are significantly easier to estimate in practice. We empirically validate our proposed bounds in different neural networks and show that they accurately capture the complex class-generalization error behavior. Moreover, we show that the theoretical tools developed in this paper can be applied in several applications beyond this context.

arxiv情報

著者 Firas Laakom,Yuheng Bu,Moncef Gabbouj
発行日 2024-01-05 17:05:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク