Dolphin: A Challenging and Diverse Benchmark for Arabic NLG

要約

私たちは、アラビア語の言語とその変種の幅広いコレクションに特化した自然言語生成 (NLG) 評価フレームワークのニーズに対処する新しいベンチマークである Dolphin を紹介します。
提案されたベンチマークには、対話生成、質問応答、機械翻訳、要約などを含む、13 の異なる NLG タスクの幅広い範囲が含まれています。
Dolphin は、50 のテスト分割にわたる 40 の多様で代表的な公開データセットの実質的なコーパスで構成されており、現実世界のシナリオとアラビア語の豊かな言語を反映するように慎重に精選されています。
これは、アラビア語および多言語モデルのパフォーマンスと一般化機能を評価するための新しい基準を設定し、研究者が現在の方法論の限界を押し広げることを可能にすることを約束します。
私たちはイルカの広範な分析を提供し、その多様性を強調し、現在のアラビア語 NLG 研究におけるギャップを特定します。
また、インタラクティブかつモジュール式の公開リーダーボードも提供しており、ベンチマークで複数のモデルを評価することで、研究者が比較できる強力なベースラインを設定できます。

要約(オリジナル)

We present Dolphin, a novel benchmark that addresses the need for a natural language generation (NLG) evaluation framework dedicated to the wide collection of Arabic languages and varieties. The proposed benchmark encompasses a broad range of 13 different NLG tasks, including dialogue generation, question answering, machine translation, summarization, among others. Dolphin comprises a substantial corpus of 40 diverse and representative public datasets across 50 test splits, carefully curated to reflect real-world scenarios and the linguistic richness of Arabic. It sets a new standard for evaluating the performance and generalization capabilities of Arabic and multilingual models, promising to enable researchers to push the boundaries of current methodologies. We provide an extensive analysis of Dolphin, highlighting its diversity and identifying gaps in current Arabic NLG research. We also offer a public leaderboard that is both interactive and modular and evaluate several models on our benchmark, allowing us to set strong baselines against which researchers can compare.

arxiv情報

著者 El Moatez Billah Nagoudi,AbdelRahim Elmadany,Ahmed El-Shangiti,Muhammad Abdul-Mageed
発行日 2023-10-24 17:48:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク