要約
従来の比較学習文埋め込みでは、エンコーダを直接使用して文の特徴を抽出し、学習のために比較損失関数を渡します。
しかし、この方法では文本体に注目しすぎて、文中の一部の単語が文の意味に及ぼす影響が無視されます。
この目的を達成するために、条件付き MLM に基づく教師なし対照学習フレームワークである CMLM-CSE を提案します。
従来の対比学習に基づいて、MLM タスクを実行するために文の埋め込みを統合する追加の補助ネットワークが追加され、文の埋め込みにより多くのマスクされた単語情報を学習するように強制されます。
最後に、Bertbase を事前トレーニング言語モデルとして使用した場合、テキスト類似性タスクで SimCSE を平均 0.55 パーセント ポイント上回りました。Robertabase を事前トレーニング言語モデルとして使用した場合、テキスト類似性タスクで SimCSE を平均 0.3 パーセント ポイント上回りました。
。
要約(オリジナル)
Traditional comparative learning sentence embedding directly uses the encoder to extract sentence features, and then passes in the comparative loss function for learning. However, this method pays too much attention to the sentence body and ignores the influence of some words in the sentence on the sentence semantics. To this end, we propose CMLM-CSE, an unsupervised contrastive learning framework based on conditional MLM. On the basis of traditional contrastive learning, an additional auxiliary network is added to integrate sentence embedding to perform MLM tasks, forcing sentence embedding to learn more masked word information. Finally, when Bertbase was used as the pretraining language model, we exceeded SimCSE by 0.55 percentage points on average in textual similarity tasks, and when Robertabase was used as the pretraining language model, we exceeded SimCSE by 0.3 percentage points on average in textual similarity tasks.
arxiv情報
著者 | Wei Zhang,Xu Chen |
発行日 | 2023-06-16 02:39:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google