SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages

要約

意味的な関連性を調査して定量化することは、言語を表現する上で中心的なことであり、さまざまな NLP タスクにわたって重要な意味を持ちます。
初期の NLP 研究は主に、多くの場合英語の文脈内での意味的な類似性に焦点を当てていましたが、私たちは代わりに意味的な関連性というより広範な現象を調査しています。
この論文では、\textit{アフリカーンス語、アルジェリア語アラビア語、アムハラ語、英語、ハウサ語、ヒンディー語、インドネシア語、ルワンダ語、マラーティー語、モロッコ語アラビア語の 13 言語にわたるネイティブ スピーカーによって注釈が付けられた新しい意味的関連性データセット コレクションである \textit{SemRel} を紹介します。
、現代標準アラビア語、スペイン語}、および \textit{テルグ語}。
これらの言語は 5 つの異なる言語族に由来しており、主にアフリカとアジアで話されています。これらの地域は、利用可能な NLP リソースが比較的限られているのが特徴です。
SemRel データセット内の各インスタンスは、2 つの文間の意味論的なテキストの関連性の程度を表すスコアに関連付けられた文のペアです。
スコアは比較アノテーション フレームワークを使用して取得されます。
データ収集とアノテーションのプロセス、データセット構築時の課題、ベースライン実験、NLP におけるそれらの影響と有用性について説明します。

要約(オリジナル)

Exploring and quantifying semantic relatedness is central to representing language and holds significant implications across various NLP tasks. While earlier NLP research primarily focused on semantic similarity, often within the English language context, we instead investigate the broader phenomenon of semantic relatedness. In this paper, we present \textit{SemRel}, a new semantic relatedness dataset collection annotated by native speakers across 13 languages: \textit{Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Spanish,} and \textit{Telugu}. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia — regions characterised by a relatively limited availability of NLP resources. Each instance in the SemRel datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. The scores are obtained using a comparative annotation framework. We describe the data collection and annotation processes, challenges when building the datasets, baseline experiments, and their impact and utility in NLP.

arxiv情報

著者 Nedjma Ousidhoum,Shamsuddeen Hassan Muhammad,Mohamed Abdalla,Idris Abdulmumin,Ibrahim Said Ahmad,Sanchit Ahuja,Alham Fikri Aji,Vladimir Araujo,Abinew Ali Ayele,Pavan Baswani,Meriem Beloucif,Chris Biemann,Sofia Bourhim,Christine De Kock,Genet Shanko Dekebo,Oumaima Hourrane,Gopichand Kanumolu,Lokesh Madasu,Samuel Rutunda,Manish Shrivastava,Thamar Solorio,Nirmal Surange,Hailegnaw Getaneh Tilaye,Krishnapriya Vishnubhotla,Genta Winata,Seid Muhie Yimam,Saif M. Mohammad
発行日 2024-05-31 15:57:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク