Set-Theoretic Compositionality of Sentence Embeddings

要約

文エンコーダーは、さまざまなNLPタスクで極めて重要な役割を果たします。
したがって、組成特性の正確な評価が最重要です。
ただし、既存の評価方法は、主に目標タスク固有のパフォーマンスに焦点を当てています。
これにより、文の埋め込みがタスクに依存しないコンテキストで基本的な構成特性がどれほどよく示されるかを理解することに大きなギャップが残ります。
古典的なセット理論を活用すると、3つのコアの「セットのような」構成/操作に基づいて6つの基準を提案することにより、このギャップに対処します:\ textit {textoverlap}、\ textit {textDifference}、および\ textit {textunion}。
これらの基準とのアライメントを評価するために、7ドルの$ 7 $ $ classicalおよび$ 9 $の大手言語モデル(LLM)ベースの文エンコーダーを体系的に評価します。
私たちの調査結果は、Sbertが一貫してセットのような組成特性を実証し、最新のLLMを超えていることを示しています。
さらに、文の埋め込みのセットのような構成性に関する将来のベンチマークの取り組みを促進するために設計された〜$ 192 $ Kサンプルの新しいデータセットを紹介します。

要約(オリジナル)

Sentence encoders play a pivotal role in various NLP tasks; hence, an accurate evaluation of their compositional properties is paramount. However, existing evaluation methods predominantly focus on goal task-specific performance. This leaves a significant gap in understanding how well sentence embeddings demonstrate fundamental compositional properties in a task-independent context. Leveraging classical set theory, we address this gap by proposing six criteria based on three core ‘set-like’ compositions/operations: \textit{TextOverlap}, \textit{TextDifference}, and \textit{TextUnion}. We systematically evaluate $7$ classical and $9$ Large Language Model (LLM)-based sentence encoders to assess their alignment with these criteria. Our findings show that SBERT consistently demonstrates set-like compositional properties, surpassing even the latest LLMs. Additionally, we introduce a new dataset of ~$192$K samples designed to facilitate future benchmarking efforts on set-like compositionality of sentence embeddings.

arxiv情報

著者 Naman Bansal,Yash mahajan,Sanjeev Sinha,Santu Karmaker
発行日 2025-02-28 11:40:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク