要約
事前トレーニング済み言語モデル (PLM) は、現在、教師なし文表現学習 (USRL) の主流となっています。
ただし、PLM はトレーニング前のコーパスからの単語の頻度情報に敏感であるため、高頻度の単語の埋め込みはクラスター化されているが、低頻度の単語の埋め込みはまばらに分散する、異方性の埋め込み空間が生じます。
この異方性現象により、類似性バイアスと情報バイアスという 2 つの問題が発生し、文埋め込みの品質が低下します。
この問題を解決するために、我々は単語の頻度情報を活用して PLM を微調整し、新しい USRL フレームワーク、つまり周波数誘導敵対的チューニングと不完全文フィルタリングによる文表現学習 (SLT-FAI) を提案します。
PLM の事前トレーニング コーパスに対して単語の頻度を計算し、単語の閾値頻度ラベルを割り当てます。
これらを使用して、(1) 高周波単語と低周波単語の埋め込みを区別するために使用される類似性弁別器を組み込み、それを使用して PLM を敵対的に調整し、均一に周波数不変の埋め込み空間を実現できるようにします。
(2) 新しい不完全文検出タスクを提案します。このタスクでは、いくつかの低頻度単語をランダムにマスクすることで元の文と不完全な文の埋め込みを区別する情報弁別器を組み込み、より有益な低頻度単語を強調できるようにします。
当社の SLT-FAI は柔軟なプラグアンドプレイ フレームワークであり、既存の USRL 技術と統合できます。
ベンチマーク データセット上でさまざまなバックボーンを使用して SLT-FAI を評価します。
実験結果は、SLT-FAI が既存の USRL ベースラインよりも優れている可能性があることを示しています。
私たちのコードは \url{https://github.com/wangbing1416/SLT-FAI} でリリースされています。
要約(オリジナル)
Pre-trained Language Model (PLM) is nowadays the mainstay of Unsupervised Sentence Representation Learning (USRL). However, PLMs are sensitive to the frequency information of words from their pre-training corpora, resulting in anisotropic embedding space, where the embeddings of high-frequency words are clustered but those of low-frequency words disperse sparsely. This anisotropic phenomenon results in two problems of similarity bias and information bias, lowering the quality of sentence embeddings. To solve the problems, we fine-tune PLMs by leveraging the frequency information of words and propose a novel USRL framework, namely Sentence Representation Learning with Frequency-induced Adversarial tuning and Incomplete sentence filtering (SLT-FAI). We calculate the word frequencies over the pre-training corpora of PLMs and assign words thresholding frequency labels. With them, (1) we incorporate a similarity discriminator used to distinguish the embeddings of high-frequency and low-frequency words, and adversarially tune the PLM with it, enabling to achieve uniformly frequency-invariant embedding space; and (2) we propose a novel incomplete sentence detection task, where we incorporate an information discriminator to distinguish the embeddings of original sentences and incomplete sentences by randomly masking several low-frequency words, enabling to emphasize the more informative low-frequency words. Our SLT-FAI is a flexible and plug-and-play framework, and it can be integrated with existing USRL techniques. We evaluate SLT-FAI with various backbones on benchmark datasets. Empirical results indicate that SLT-FAI can be superior to the existing USRL baselines. Our code is released in \url{https://github.com/wangbing1416/SLT-FAI}.
arxiv情報
著者 | Bing Wang,Ximing Li,Zhiyao Yang,Yuanyuan Guan,Jiayin Li,Shengsheng Wang |
発行日 | 2023-05-15 13:59:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google