SemEval Task 1: Semantic Textual Relatedness for African and Asian Languages

要約

我々は、意味的テキスト関連性(STR)に関する最初の共有タスクを発表する。以前の共有タスクは主に意味的類似性に焦点を当てていたが、我々はその代わりに14言語にわたる意味的関連性という広範な現象を調査する:アフリカーンス語、アルジェリア・アラビア語、アムハラ語、英語、ハウサ語、ヒンディー語、インドネシア語、キンヤルワンダ語、マラーティー語、モロッコ・アラビア語、現代標準アラビア語、パンジャブ語、スペイン語、テルグ語である。これらの言語は5つの異なる語族に由来し、アフリカとアジアで主に話されている。データセットの各インスタンスは文のペアであり、2つの文の間の意味的なテキストの関連性の程度を表すスコアと関連付けられている。参加システムは、(a)教師あり、(b)教師なし、(c)クロスリンガルの3つの主要なトラックにおいて、14の言語における意味の近さ(すなわち意味的関連性の度合い)によって文のペアをランク付けするよう求められた。このタスクには163名が参加した。51の異なるチームから合計70件(全タスクを通じて)の投稿があり、38件のシステム記述論文が寄せられた。3つの異なるトラックについて、最も優れたシステム、最も一般的で最も効果的なアプローチについて報告する。

要約(オリジナル)

We present the first shared task on Semantic Textual Relatedness (STR). While earlier shared tasks primarily focused on semantic similarity, we instead investigate the broader phenomenon of semantic relatedness across 14 languages: Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia — regions characterised by the relatively limited availability of NLP resources. Each instance in the datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. Participating systems were asked to rank sentence pairs by their closeness in meaning (i.e., their degree of semantic relatedness) in the 14 languages in three main tracks: (a) supervised, (b) unsupervised, and (c) crosslingual. The task attracted 163 participants. We received 70 submissions in total (across all tasks) from 51 different teams, and 38 system description papers. We report on the best-performing systems as well as the most common and the most effective approaches for the three different tracks.

arxiv情報

著者 Nedjma Ousidhoum,Shamsuddeen Hassan Muhammad,Mohamed Abdalla,Idris Abdulmumin,Ibrahim Said Ahmad,Sanchit Ahuja,Alham Fikri Aji,Vladimir Araujo,Meriem Beloucif,Christine De Kock,Oumaima Hourrane,Manish Shrivastava,Thamar Solorio,Nirmal Surange,Krishnapriya Vishnubhotla,Seid Muhie Yimam,Saif M. Mohammad
発行日 2024-04-04 15:30:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク