要約
一般的な文の埋め込みは、意味論的なテキストの類似性の大まかな近似を提供しますが、テキストを類似させる特定の側面は無視されます。
逆に、アスペクトベースの文埋め込みは、特定の事前定義されたアスペクトに基づいてテキスト間の類似性を提供します。
したがって、テキストの類似性予測は、特定の要件をよりターゲットにしており、より簡単に説明できます。
この論文では、文埋め込みのアスペクトベースの対比学習のためのアプローチである AspectCSE を紹介します。
結果は、AspectCSE が以前の最良の結果と比較して、複数の側面にわたる情報検索タスクで平均 3.97% の改善を達成していることを示しています。
また、Wikidata ナレッジ グラフ プロパティを使用して、類似性予測中に複数の特定の側面が同時に考慮されるマルチアスペクト文埋め込みのモデルをトレーニングすることも提案します。
我々は、アスペクト固有の情報検索タスクにおいて、マルチアスペクト埋め込みが単一アスペクト埋め込みよりも優れたパフォーマンスを発揮することを実証します。
最後に、アスペクトベースの文埋め込み空間を調べ、異なるアスペクト ラベル間の明示的な類似性トレーニングがなくても、意味的に類似したアスペクト ラベルの埋め込みが多くの場合近いことを示します。
要約(オリジナル)
Generic sentence embeddings provide a coarse-grained approximation of semantic textual similarity but ignore specific aspects that make texts similar. Conversely, aspect-based sentence embeddings provide similarities between texts based on certain predefined aspects. Thus, similarity predictions of texts are more targeted to specific requirements and more easily explainable. In this paper, we present AspectCSE, an approach for aspect-based contrastive learning of sentence embeddings. Results indicate that AspectCSE achieves an average improvement of 3.97% on information retrieval tasks across multiple aspects compared to the previous best results. We also propose using Wikidata knowledge graph properties to train models of multi-aspect sentence embeddings in which multiple specific aspects are simultaneously considered during similarity predictions. We demonstrate that multi-aspect embeddings outperform single-aspect embeddings on aspect-specific information retrieval tasks. Finally, we examine the aspect-based sentence embedding space and demonstrate that embeddings of semantically similar aspect labels are often close, even without explicit similarity training between different aspect labels.
arxiv情報
著者 | Tim Schopf,Emanuel Gerber,Malte Ostendorff,Florian Matthes |
発行日 | 2023-09-24 20:35:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google