Regression as Classification: Influence of Task Formulation on Neural Network Features

要約

ニューラル ネットワークは、勾配ベースの方法を使用して二乗損失を最小化することにより、回帰問題を解決するようにトレーニングできます。
ただし、実践者は、交差エントロピー損失に関するトレーニングがより良いパフォーマンスをもたらすことを観察して、回帰を分類問題として再定式化することを好むことがよくあります。
特徴空間の測定によって完全に特徴付けることができる 2 層の ReLU ネットワークに焦点を当てることにより、勾配ベースの最適化によって引き起こされる暗黙のバイアスが上記の現象を部分的に説明する方法を探ります。
1 次元データの場合、回帰定式化により、サポートが分類のサポートとは大きく異なる測定値が得られるという理論的証拠を提供します。
私たちが提案する最適なサポートは、ネットワークの入力層によって学習された機能に直接対応しています。
これらのサポートの異なる性質は、トレーニング中に二乗損失が発生する可能性のある最適化の問題に光を当て、この現象を説明する実験結果を提示します。

要約(オリジナル)

Neural networks can be trained to solve regression problems by using gradient-based methods to minimize the square loss. However, practitioners often prefer to reformulate regression as a classification problem, observing that training on the cross entropy loss results in better performance. By focusing on two-layer ReLU networks, which can be fully characterized by measures over their feature space, we explore how the implicit bias induced by gradient-based optimization could partly explain the above phenomenon. We provide theoretical evidence that the regression formulation yields a measure whose support can differ greatly from that for classification, in the case of one-dimensional data. Our proposed optimal supports correspond directly to the features learned by the input layer of the network. The different nature of these supports sheds light on possible optimization difficulties the square loss could encounter during training, and we present empirical results illustrating this phenomenon.

arxiv情報

著者 Lawrence Stewart,Francis Bach,Quentin Berthet,Jean-Philippe Vert
発行日 2023-03-01 13:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク