SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14 Languages

要約

意味的な関連性を調査し、定量化することは、言語を表現する上で中心となります。
これは、大規模言語モデル (LLM) の機能とパフォーマンスについての洞察を提供するなど、さまざまな NLP タスクにわたって重要な意味を持ちます。
初期の NLP 研究は主に、多くの場合英語の文脈内での意味的な類似性に焦点を当てていましたが、私たちは代わりに意味的な関連性というより広範な現象を調査しています。
この論文では、アフリカーンス語、アルジェリア語アラビア語、アムハラ語、英語、ハウサ語、ヒンディー語、インドネシア語、ルワンダ語、マラーティー語、モロッコ語アラビア語、現代標準アラビア語、パンジャブ語、
スペイン語、テルグ語。
これらの言語は 5 つの異なる言語族に由来しており、主にアフリカとアジア、つまり利用可能な NLP リソースが比較的限られていることが特徴の地域で話されています。
SemRel データセット内の各インスタンスは、2 つの文間の意味論的なテキストの関連性の度合いを表すスコアに関連付けられた文のペアです。
スコアは比較アノテーション フレームワークを使用して取得されます。
データ収集とアノテーションのプロセス、データセット構築時の関連する課題、NLP におけるそれらの影響と有用性について説明します。
さらに、各言語および異なる言語にわたる実験についても報告します。

要約(オリジナル)

Exploring and quantifying semantic relatedness is central to representing language. It holds significant implications across various NLP tasks, including offering insights into the capabilities and performance of Large Language Models (LLMs). While earlier NLP research primarily focused on semantic similarity, often within the English language context, we instead investigate the broader phenomenon of semantic relatedness. In this paper, we present SemRel, a new semantic relatedness dataset collection annotated by native speakers across 14 languages:Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia — regions characterised by a relatively limited availability of NLP resources. Each instance in the SemRel datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. The scores are obtained using a comparative annotation framework. We describe the data collection and annotation processes, related challenges when building the datasets, and their impact and utility in NLP. We further report experiments for each language and across the different languages.

arxiv情報

著者 Nedjma Ousidhoum,Shamsuddeen Hassan Muhammad,Mohamed Abdalla,Idris Abdulmumin,Ibrahim Said Ahmad,Sanchit Ahuja,Alham Fikri Aji,Vladimir Araujo,Abinew Ali Ayele,Pavan Baswani,Meriem Beloucif,Chris Biemann,Sofia Bourhim,Christine De Kock,Genet Shanko Dekebo,Oumaima Hourrane,Gopichand Kanumolu,Lokesh Madasu,Samuel Rutunda,Manish Shrivastava,Thamar Solorio,Nirmal Surange,Hailegnaw Getaneh Tilaye,Krishnapriya Vishnubhotla,Genta Winata,Seid Muhie Yimam,Saif M. Mohammad
発行日 2024-02-14 09:49:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク