C-STS: Conditional Semantic Textual Similarity

要約

意味論的文章類似度(STS)は、自然言語処理(NLP)の基礎となるタスクであり、一対の文の類似度を測定し、情報検索や自然言語理解などの分野で広く応用されている。しかし、文の類似度は、関心のある特定の側面によって本質的に曖昧になる可能性がある。我々は、自然言語で記述された特徴(以下、条件)を条件として文の類似度を測定する、条件付きSTS(C-STS)と呼ばれる新しいタスクを提案することにより、この曖昧性を解決する。例として、「NBAの選手がスリーポインターでシュートする」と「男性がテニスボールを空中に投げてサーブする」という文の類似度は、「ボールの動き」という条件(どちらも上向き)では高くなり、「ボールの大きさ」という条件(大小)では低くなる。C-STSの利点は2つある:(1)STSの主観性と曖昧性を減らし、(2)多様な自然言語条件を通してきめ細かな言語モデル評価を可能にする。我々はいくつかの最新モデルをテストにかけたが、STSで良い結果を出しているモデル(SimCSE、Flan-T5、GPT-4など)でさえ、C-STSは困難であることがわかった。意味類似性と自然言語理解のより包括的な評価を奨励するため、我々は約19KのC-STSの例とコードを公開し、他の人がモデルの訓練とテストを行えるようにしている。

要約(オリジナル)

Semantic textual similarity (STS), a cornerstone task in NLP, measures the degree of similarity between a pair of sentences, and has broad application in fields such as information retrieval and natural language understanding. However, sentence similarity can be inherently ambiguous, depending on the specific aspect of interest. We resolve this ambiguity by proposing a novel task called Conditional STS (C-STS) which measures sentences’ similarity conditioned on an feature described in natural language (hereon, condition). As an example, the similarity between the sentences ‘The NBA player shoots a three-pointer.’ and ‘A man throws a tennis ball into the air to serve.’ is higher for the condition ‘The motion of the ball’ (both upward) and lower for ‘The size of the ball’ (one large and one small). C-STS’s advantages are two-fold: (1) it reduces the subjectivity and ambiguity of STS and (2) enables fine-grained language model evaluation through diverse natural language conditions. We put several state-of-the-art models to the test, and even those performing well on STS (e.g. SimCSE, Flan-T5, and GPT-4) find C-STS challenging; all with Spearman correlation scores below 50. To encourage a more comprehensive evaluation of semantic similarity and natural language understanding, we make nearly 19K C-STS examples and code available for others to train and test their models.

arxiv情報

著者 Ameet Deshpande,Carlos E. Jimenez,Howard Chen,Vishvak Murahari,Victoria Graf,Tanmay Rajpurohit,Ashwin Kalyan,Danqi Chen,Karthik Narasimhan
発行日 2023-11-06 18:48:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク