Y-NQ: English-Yorùbá Evaluation dataset for Open-Book Reading Comprehension and Text Generation

要約

この研究の目的は、オープンブックの読解とテキスト生成のための英語版評価データセットを共有し、リソースの多い言語とリソースの少ない言語の両方でモデルのパフォーマンスを評価することです。
このデータセットには、338 の英語文書と 208 のヨーロピアン文書に関する 358 の質問と回答が含まれています。
ドキュメントの平均長は、英語の場合は約 10,000 ワード、Yor\`ub\’a の場合は 430 ワードです。
実験では、この 2 つの言語のパフォーマンスには一貫した差があることが示されており、この言語ではドキュメントがはるかに短いにもかかわらず、自動メトリクスでは Yor\`ub\’a が英語に遅れをとっています。
同程度の長さの小さなドキュメントのセットの場合、Yor\`ub\’a のパフォーマンスは 2.5 倍低下します。
長さごとにパフォーマンスを分析すると、Yor\`ub\’a は 1500 単語に達するドキュメントではパフォーマンスが大幅に低下しますが、その長さでは英語のパフォーマンスはほとんど影響を受けないことがわかります。
私たちのデータセットは、英語 LLM の読解能力が Yor\`ub\’a にまで及ぶかどうかを示す扉を​​開きますが、評価された LLM ではそうではありません。

要約(オリジナル)

The purpose of this work is to share an English-Yor\`ub\’a evaluation dataset for open-book reading comprehension and text generation to assess the performance of models both in a high- and a low- resource language. The dataset contains 358 questions and answers on 338 English documents and 208 Yor\`ub\’a documents. The average document length is ~ 10k words for English and 430 words for Yor\`ub\’a. Experiments show a consistent disparity in performance between the two languages, with Yor\`ub\’a falling behind English for automatic metrics even if documents are much shorter for this language. For a small set of documents with comparable length, performance of Yor\`ub\’a drops by x2.5 times. When analyzing performance by length, we observe that Yor\`ub\’a decreases performance dramatically for documents that reach 1500 words while English performance is barely affected at that length. Our dataset opens the door to showcasing if English LLM reading comprehension capabilities extend to Yor\`ub\’a, which for the evaluated LLMs is not the case.

arxiv情報

著者 Marta R. Costa-jussà,Joy Chen,Ifeoluwanimi Adebara,Joe Chuang,Christophe Ropers,Eduardo Sánchez
発行日 2024-12-11 10:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク