Representation Learning with Conditional Information Flow Maximization

要約

この論文は、入力データとターゲットタスクに対してノイズ不変の十分な表現を抽出するための、条件付き情報フロー最大化と呼ばれる情報理論的表現学習フレームワークを提案します。
これにより、学習された表現が優れた特徴の均一性と十分な予測能力を持つことが促進され、ターゲット タスクの事前トレーニング済み言語モデル (PLM) の一般化が強化されます。
まず、入力表現と表現ラベルの相互情報を同時に最大化することにより、入力とターゲットのより十分な表現を学習するための情報流最大化原理を提案する。
情報ボトルネックとは異なり、潜在表現の過剰圧縮の問題を回避するために、入力表現情報を逆の方法で処理します。
さらに、入力からの潜在的な冗長特徴の悪影響を軽減するために、ノイズ不変特徴を維持しながら負の冗長特徴を除去する条件付き情報最小化原理を設計します。
13 の言語理解ベンチマークの実験により、私たちの方法が分類と回帰の PLM のパフォーマンスを効果的に向上させることが実証されました。
広範な実験により、学習された表現はより十分で、堅牢で、転送可能であることが示されています。

要約(オリジナル)

This paper proposes an information-theoretic representation learning framework, named conditional information flow maximization, to extract noise-invariant sufficient representations for the input data and target task. It promotes the learned representations have good feature uniformity and sufficient predictive ability, which can enhance the generalization of pre-trained language models (PLMs) for the target task. Firstly, an information flow maximization principle is proposed to learn more sufficient representations for the input and target by simultaneously maximizing both input-representation and representation-label mutual information. Unlike the information bottleneck, we handle the input-representation information in an opposite way to avoid the over-compression issue of latent representations. Besides, to mitigate the negative effect of potential redundant features from the input, we design a conditional information minimization principle to eliminate negative redundant features while preserve noise-invariant features. Experiments on 13 language understanding benchmarks demonstrate that our method effectively improves the performance of PLMs for classification and regression. Extensive experiments show that the learned representations are more sufficient, robust and transferable.

arxiv情報

著者 Dou Hu,Lingwei Wei,Wei Zhou,Songlin Hu
発行日 2024-08-12 09:31:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク