要約
言語の 2 つの単位の意味的関連性の程度は、長い間、意味を理解するための基本と考えられてきました。
さらに、関連性を自動的に判断することには、質問応答や要約などの多くのアプリケーションがあります。
ただし、以前の NLP の研究では、関連性のデータセットが不足しているため、関連性のサブセットである意味的類似性に主に焦点が当てられていました。
このホワイト ペーパーでは、セマンティック テキスト関連性のデータセット STR-2022 を紹介します。このデータセットには、比較注釈フレームワークを使用して手動で注釈を付けた 5,500 の英語の文のペアが含まれており、きめ細かなスコアが得られます。
文のペアの関連性に関する人間の直感は信頼性が高く、繰り返し注釈の相関は 0.84 であることを示しています。
このデータセットを使用して、文が意味的に関連している理由についての質問を調査します。
また、STR-2022 の有用性を示して、文表現の自動手法を評価し、さまざまなダウンストリーム NLP タスクを実行します。
私たちのデータセット、データ ステートメント、および注釈アンケートは、https://doi.org/10.5281/zenodo.7599667 にあります。
要約(オリジナル)
The degree of semantic relatedness of two units of language has long been considered fundamental to understanding meaning. Additionally, automatically determining relatedness has many applications such as question answering and summarization. However, prior NLP work has largely focused on semantic similarity, a subset of relatedness, because of a lack of relatedness datasets. In this paper, we introduce a dataset for Semantic Textual Relatedness, STR-2022, that has 5,500 English sentence pairs manually annotated using a comparative annotation framework, resulting in fine-grained scores. We show that human intuition regarding relatedness of sentence pairs is highly reliable, with a repeat annotation correlation of 0.84. We use the dataset to explore questions on what makes sentences semantically related. We also show the utility of STR-2022 for evaluating automatic methods of sentence representation and for various downstream NLP tasks. Our dataset, data statement, and annotation questionnaire can be found at: https://doi.org/10.5281/zenodo.7599667
arxiv情報
著者 | Mohamed Abdalla,Krishnapriya Vishnubhotla,Saif M. Mohammad |
発行日 | 2023-03-20 13:34:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google