AspectCSE: Sentence Embeddings for Aspect-based Semantic Textual Similarity Using Contrastive Learning and Structured Knowledge

要約

一般的な文埋め込みは、意味的なテキストの類似性の粗い近似を提供するが、テキストを類似させる特定の側面を無視する。逆に、アスペクトベースの文埋め込みは、特定の定義済みのアスペクトに基づいてテキスト間の類似性を提供する。従って、テキストの類似性予測は、より特定の要件に的を絞ったものとなり、より容易に説明できるようになる。本論文では、アスペクトに基づく文埋め込みの対比学習のためのアプローチであるAspectCSEを紹介する。その結果、AspectCSEは複数のアスペクトにまたがる情報検索タスクにおいて、従来の最良の結果と比較して平均3.97%の改善を達成した。また、Wikidataの知識グラフの特性を利用して、類似度予測時に複数の特定のアスペクトを同時に考慮するマルチアスペクト文埋め込みモデルの学習を提案する。アスペクトに特化した情報検索タスクにおいて、マルチアスペクト埋め込みがシングルアスペクト埋め込みを上回ることを実証する。最後に、アスペクトに基づく文埋め込み空間を検討し、異なるアスペクトラベル間の明示的な類似性訓練がなくても、意味的に類似したアスペクトラベルの埋め込みは、多くの場合近いことを実証する。

要約(オリジナル)

Generic sentence embeddings provide a coarse-grained approximation of semantic textual similarity but ignore specific aspects that make texts similar. Conversely, aspect-based sentence embeddings provide similarities between texts based on certain predefined aspects. Thus, similarity predictions of texts are more targeted to specific requirements and more easily explainable. In this paper, we present AspectCSE, an approach for aspect-based contrastive learning of sentence embeddings. Results indicate that AspectCSE achieves an average improvement of 3.97% on information retrieval tasks across multiple aspects compared to the previous best results. We also propose using Wikidata knowledge graph properties to train models of multi-aspect sentence embeddings in which multiple specific aspects are simultaneously considered during similarity predictions. We demonstrate that multi-aspect embeddings outperform single-aspect embeddings on aspect-specific information retrieval tasks. Finally, we examine the aspect-based sentence embedding space and demonstrate that embeddings of semantically similar aspect labels are often close, even without explicit similarity training between different aspect labels.

arxiv情報

著者 Tim Schopf,Emanuel Gerber,Malte Ostendorff,Florian Matthes
発行日 2023-08-31 19:47:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク