The Daunting Dilemma with Sentence Encoders: Success on Standard Benchmarks, Failure in Capturing Basic Semantic Properties

要約

このペーパーでは、遡及的なアプローチを採用して、既存の 5 つの一般的なセンテンス エンコーダ、つまり Sentence-BERT、Universal Sentence Encoder (USE)、LASER、InferSent、および Doc2vec を、ダウンストリーム タスクのパフォーマンスとその機能の観点から調査および比較しました。
基本的なセマンティック プロパティを取得します。
最初に、人気の SentEval ベンチマークで 5 つのセンテンス エンコーダーすべてを評価したところ、複数のセンテンス エンコーダーがさまざまな一般的なダウンストリーム タスクで非常に優れたパフォーマンスを発揮することがわかりました。
しかし、すべてのケースで単一の勝者を見つけることができなかったため、私たちは彼らの行動をより深く理解するためにさらなる実験を計画しました。
具体的には、言い換え、類義語置換、反意語置換、文の混乱という 4 つの意味評価基準を提案し、これらの基準を使用して同じ 5 つの文エンコーダを評価しました。
Sentence-Bert モデルと USE モデルは言い換え基準を満たしており、この 2 つのモデルでは SBERT が優れていることがわかりました。
同義語置換基準の場合は LASER が優勢です。
興味深いことに、すべての文エンコーダが反意語の置換と混乱の基準を満たしていませんでした。
これらの結果は、これらの一般的な文エンコーダーは SentEval ベンチマークでは非常に優れたパフォーマンスを発揮しますが、いくつかの基本的な意味論的特性を捕捉するのにまだ苦労しており、したがって NLP 研究において困難なジレンマを引き起こしていることを示唆しています。

要約(オリジナル)

In this paper, we adopted a retrospective approach to examine and compare five existing popular sentence encoders, i.e., Sentence-BERT, Universal Sentence Encoder (USE), LASER, InferSent, and Doc2vec, in terms of their performance on downstream tasks versus their capability to capture basic semantic properties. Initially, we evaluated all five sentence encoders on the popular SentEval benchmark and found that multiple sentence encoders perform quite well on a variety of popular downstream tasks. However, being unable to find a single winner in all cases, we designed further experiments to gain a deeper understanding of their behavior. Specifically, we proposed four semantic evaluation criteria, i.e., Paraphrasing, Synonym Replacement, Antonym Replacement, and Sentence Jumbling, and evaluated the same five sentence encoders using these criteria. We found that the Sentence-Bert and USE models pass the paraphrasing criterion, with SBERT being the superior between the two. LASER dominates in the case of the synonym replacement criterion. Interestingly, all the sentence encoders failed the antonym replacement and jumbling criteria. These results suggest that although these popular sentence encoders perform quite well on the SentEval benchmark, they still struggle to capture some basic semantic properties, thus, posing a daunting dilemma in NLP research.

arxiv情報

著者 Yash Mahajan,Naman Bansal,Shubhra Kanti Karmaker
発行日 2023-09-07 14:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク