Structured Probabilistic Coding

要約

この論文では、ターゲット タスクに関連する入力からコンパクトで有益な表現を学習するための、新しい教師あり表現学習フレームワーク、つまり構造化確率コーディング (SPC) を紹介します。
SPC は、ターゲット ラベル空間からの構造化正則化を備えたエンコーダ専用の確率的コーディング テクノロジです。
SPC は、ターゲット タスクに関連する入力からコンパクトで有益な表現を抽出することにより、事前トレーニングされた言語モデルの一般化能力を強化し、言語理解をより良くすることができます。
具体的には、ラベル空間に関する潜在表現の事前エントロピーを最大化しながら、隠れ表現はガウス分布空間にエンコードされます。
この手法では、情報エンコードとタスク予測を 1 つのモジュールで同時に実行して、入力データからの有効な情報をより完全に活用し、出力空間で変分推論を使用してランダム性と不確実性を低減できます。
潜在空間内の確率分布をより適切に制御するために、潜在空間内のクラスレベルの均一性を促進する構造化正則化が提案されています。
正則化項を使用すると、SPC は潜在コードのガウス分布構造を保存できるだけでなく、クラスで隠れた空間を均一にカバーすることができます。
12 の自然言語理解タスクについて評価を実施します。
結果は、私たちの SPC がさまざまな分類および回帰タスクに対して事前トレーニングされた言語モデルのパフォーマンスを効果的に向上できることを示しています。
実験では、SPC が一般化機能、ラベル ノイズに対する堅牢性、および出力表現のクラスタリング品質を強化できることが実証されています。

要約(オリジナル)

This paper presents a new supervised representation learning framework, namely Structured Probabilistic Coding (SPC), to learn compact and informative representations from input related to the target task. SPC is an encoder-only probabilistic coding technology with a structured regularization from the target label space. By extracting compact and informative representations from input related to the target task, SPC can enhance the generalization ability of pre-trained language models for better language understanding. Specifically, the hidden representation is encoded into a Gaussian distribution space, while maximizing the prior entropy of latent representations concerning label space. This technique can simultaneously perform information encoding and task prediction in one module to more fully utilize the effective information from input data, and use variational inference in the output space to reduce randomness and uncertainty. To better control the probability distribution in the latent space, a structured regularization is proposed to promote class-level uniformity in the latent space. With the regularization term, SPC can preserve the Gaussian distribution structure of latent code as well as better cover the hidden space with class uniformly. We conduct evaluations on 12 natural language understanding tasks. The results show that our SPC can effectively improve the performance of pre-trained language models for various classification and regression tasks. Experiments demonstrate that SPC can enhance the generalization capability, robustness to label noise, and clustering quality of output representations.

arxiv情報

著者 Dou Hu,Lingwei Wei,Yaxin Liu,Wei Zhou,Songlin Hu
発行日 2023-12-21 15:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク