要約
自己教師あり学習により、AI システムは、コストのかかるラベル付けを必要としないタスクを使用して、大量のデータから効果的な表現を学習できます。
モード崩壊、つまり、すべての入力に対して同一の表現を生成するモデルは、多くの自己教師あり学習アプローチの中心的な問題であり、入力の歪んだバリアントのマッチングなどの自己教師ありタスクを無効にします。
この記事では、同じ入力の代替潜在表現間で情報最大化を直接適用すると、崩壊問題が自然に解決され、競争力のある経験的結果が得られると主張します。
引数間の相関レベルを反映する二次統計ベースの相互情報量測定を使用する、自己教師あり学習法、CorInfoMax を提案します。
同じ入力の代替表現間のこの相関情報尺度を最大化することには、2 つの目的があります。(1) 非縮退共分散を持つ特徴ベクトルを生成することにより、崩壊の問題を回避します。
(2) 代替表現間の線形依存性を高めることにより、代替表現間の関連性を確立します。
提案された情報最大化目的の近似は、特徴共分散行列の対数行列式によって正則化されたユークリッド距離ベースの目的関数に単純化されます。
正則化項は、特徴空間の縮退に対する自然な障壁として機能します。
その結果、提案されたアプローチは、単一のポイントへの完全な出力の崩壊を回避するだけでなく、特徴空間全体にわたる情報の拡散を促進することにより、次元の崩壊も防ぎます。
数値実験は、CorInfoMax が最先端の SSL アプローチと比較して、より優れた、または競争力のあるパフォーマンス結果を達成することを示しています。
要約(オリジナル)
Self-supervised learning allows AI systems to learn effective representations from large amounts of data using tasks that do not require costly labeling. Mode collapse, i.e., the model producing identical representations for all inputs, is a central problem to many self-supervised learning approaches, making self-supervised tasks, such as matching distorted variants of the inputs, ineffective. In this article, we argue that a straightforward application of information maximization among alternative latent representations of the same input naturally solves the collapse problem and achieves competitive empirical results. We propose a self-supervised learning method, CorInfoMax, that uses a second-order statistics-based mutual information measure that reflects the level of correlation among its arguments. Maximizing this correlative information measure between alternative representations of the same input serves two purposes: (1) it avoids the collapse problem by generating feature vectors with non-degenerate covariances; (2) it establishes relevance among alternative representations by increasing the linear dependence among them. An approximation of the proposed information maximization objective simplifies to a Euclidean distance-based objective function regularized by the log-determinant of the feature covariance matrix. The regularization term acts as a natural barrier against feature space degeneracy. Consequently, beyond avoiding complete output collapse to a single point, the proposed approach also prevents dimensional collapse by encouraging the spread of information across the whole feature space. Numerical experiments demonstrate that CorInfoMax achieves better or competitive performance results relative to the state-of-the-art SSL approaches.
arxiv情報
著者 | Serdar Ozsoy,Shadi Hamdan,Sercan Ö. Arik,Deniz Yuret,Alper T. Erdogan |
発行日 | 2022-09-16 15:26:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google