Frustratingly Easy Model Generalization by Dummy Risk Minimization

要約

経験的リスク最小化(ERM)は機械学習の基本的なパラダイムである。しかし、その汎化能力は様々なタスクにおいて限界がある。本論文では、ERMの汎化能力を向上させるために、非常に簡単で汎用的な手法であるダミーリスク最小化(DuRM)を考案する。DuRMの実装は極めて簡単で、出力ロジットの次元を大きくし、標準的な勾配降下法を用いて最適化するだけである。さらに、DuRMの有効性を理論と実証の両面から検証する。理論的には、DuRMはより大きな勾配の分散を導き出し、より平坦な局所極小値を観測することによりモデルの汎化を容易にすることを示す。経験的には、従来の分類、意味分割、分布外汎化、敵対学習、ロングテール認識を含む多様なタスクについて、異なるデータセット、モダリティ、ネットワークアーキテクチャでDuRMの評価を行った。その結果、DuRMは全てのタスクにおいて、ほぼフリーランチ的に一貫して性能を改善できることが示された。さらに、DuRMが既存の汎化技術と互換性があることを示し、考えられる限界について議論する。我々は、DuRMがリスク最小化の基礎研究に新たな関心を呼び起こすことを期待している。

要約(オリジナル)

Empirical risk minimization (ERM) is a fundamental machine learning paradigm. However, its generalization ability is limited in various tasks. In this paper, we devise Dummy Risk Minimization (DuRM), a frustratingly easy and general technique to improve the generalization of ERM. DuRM is extremely simple to implement: just enlarging the dimension of the output logits and then optimizing using standard gradient descent. Moreover, we validate the efficacy of DuRM on both theoretical and empirical analysis. Theoretically, we show that DuRM derives greater variance of the gradient, which facilitates model generalization by observing better flat local minima. Empirically, we conduct evaluations of DuRM across different datasets, modalities, and network architectures on diverse tasks, including conventional classification, semantic segmentation, out-of-distribution generalization, adverserial training, and long-tailed recognition. Results demonstrate that DuRM could consistently improve the performance under all tasks with an almost free lunch manner. Furthermore, we show that DuRM is compatible with existing generalization techniques and we discuss possible limitations. We hope that DuRM could trigger new interest in the fundamental research on risk minimization.

arxiv情報

著者 Juncheng Wang,Jindong Wang,Xixu Hu,Shujun Wang,Xing Xie
発行日 2023-08-04 12:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク