Instance Smoothed Contrastive Learning for Unsupervised Sentence Embedding

要約

unsup-SimCSEのような対照学習に基づく手法は、教師なし文埋め込み学習において最先端の(SOTA)性能を達成している。しかし、これまでの研究では、対照学習に用いられる各埋め込みは、1つの文のインスタンスに由来するものでしかなく、これらの埋め込みをインスタンスレベル埋め込みと呼ぶ。つまり、各埋め込みはそれ自体固有のクラスとみなされ、汎化性能を低下させる可能性がある。そこで本研究では、特徴空間における埋め込みの境界を滑らかにするIS-CSE (instance smoothing contrastive sentence embedding) を提案する。具体的には、動的メモリバッファから意味的類似性に応じて埋め込みを取り出し、正の埋め込みグループを得る。そして、そのグループ内の埋め込みを自己注意操作によって集約し、さらなる分析のために平滑化されたインスタンス埋め込みを生成する。本手法を標準的な意味テキスト類似度(STS)タスクで評価したところ、BERT-base、BERT-large、RoBERTa-base、RoBERTa-largeのベースにおいて、それぞれ平均78.30%、79.47%、77.73%、79.42%のスペアマン相関を達成し、 unsup-SimCSE と比較して2.05% 、 1.06% 、 1.16% 、 0.52% を改善する。

要約(オリジナル)

Contrastive learning-based methods, such as unsup-SimCSE, have achieved state-of-the-art (SOTA) performances in learning unsupervised sentence embeddings. However, in previous studies, each embedding used for contrastive learning only derived from one sentence instance, and we call these embeddings instance-level embeddings. In other words, each embedding is regarded as a unique class of its own, whichmay hurt the generalization performance. In this study, we propose IS-CSE (instance smoothing contrastive sentence embedding) to smooth the boundaries of embeddings in the feature space. Specifically, we retrieve embeddings from a dynamic memory buffer according to the semantic similarity to get a positive embedding group. Then embeddings in the group are aggregated by a self-attention operation to produce a smoothed instance embedding for further analysis. We evaluate our method on standard semantic text similarity (STS) tasks and achieve an average of 78.30%, 79.47%, 77.73%, and 79.42% Spearman’s correlation on the base of BERT-base, BERT-large, RoBERTa-base, and RoBERTa-large respectively, a 2.05%, 1.06%, 1.16% and 0.52% improvement compared to unsup-SimCSE.

arxiv情報

著者 Hongliang He,Junlei zhang,Zhenzhong Lan,Yue Zhang
発行日 2023-05-12 12:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク