Removing Spurious Concepts from Neural Network Representations via Joint Subspace Estimation

要約

ニューラル ネットワークにおける分布外一般化は、偽の相関によって妨げられることがよくあります。
一般的な戦略は、データのニューラル ネットワーク表現から偽の概念を削除することでこれを軽減することです。
既存の概念削除手法は、モデルの主要なタスクに関連する機能を不用意に削除することで過度に過剰になる傾向があり、それによってモデルのパフォーマンスに悪影響を及ぼします。
ニューラル ネットワーク表現内の 2 つの低次元の直交部分空間を共同で識別することによって、メインタスクの概念からスプリアスを分離する反復アルゴリズムを提案します。
コンピューター ビジョン (Waterbirds、CelebA) および自然言語処理 (MultiNLI) のベンチマーク データセットでアルゴリズムを評価し、既存の概念除去手法よりも優れていることを示します。

要約(オリジナル)

Out-of-distribution generalization in neural networks is often hampered by spurious correlations. A common strategy is to mitigate this by removing spurious concepts from the neural network representation of the data. Existing concept-removal methods tend to be overzealous by inadvertently eliminating features associated with the main task of the model, thereby harming model performance. We propose an iterative algorithm that separates spurious from main-task concepts by jointly identifying two low-dimensional orthogonal subspaces in the neural network representation. We evaluate the algorithm on benchmark datasets for computer vision (Waterbirds, CelebA) and natural language processing (MultiNLI), and show that it outperforms existing concept removal methods

arxiv情報

著者 Floris Holstege,Bram Wouters,Noud van Giersbergen,Cees Diks
発行日 2023-10-18 14:22:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク