要約
アラビア語の詩は、アラビア語で最も洗練された文化的に埋め込まれた表現形式の表現の1つであり、その階層化された意味、文体的な多様性、深い歴史的連続性で知られています。
大規模な言語モデル(LLM)は、言語とタスク全体で強力なパフォーマンスを実証していますが、アラビア語の詩を理解する能力はほとんど未踏のままです。
この作業では、12の歴史的時代のLLMによるアラビア語の詩の理解を評価するために設計された最初のベンチマークである「ファンまたはフロップ」を紹介します。
ベンチマークは、意味の理解、比phorの解釈、韻律の認識、文化的文脈を評価する説明を含む詩のキュレーションされたコーパスで構成されています。
詩的な理解は、LLMがアラビア語の詩を通して古典的なアラビア語を理解する上でどれほど優れているかをテストするための強力な指標を提供すると主張します。
表面レベルのタスクとは異なり、このドメインには、より深い解釈的推論と文化的感受性が必要です。
最先端のLLMSの評価は、標準的なアラビア語のベンチマークに関する強力な結果にもかかわらず、ほとんどのモデルが詩的な理解に苦労していることを示しています。
アラビア語モデルの厳密な評価と進歩を可能にするオープンソースリソースとして、評価スイートとともに「FannまたはFlop」をリリースします。
コードは、https://github.com/mbzuai-oryx/fannorflopで入手できます。
要約(オリジナル)
Arabic poetry stands as one of the most sophisticated and culturally embedded forms of expression in the Arabic language, known for its layered meanings, stylistic diversity, and deep historical continuity. Although large language models (LLMs) have demonstrated strong performance across languages and tasks, their ability to understand Arabic poetry remains largely unexplored. In this work, we introduce `Fann or Flop`, the first benchmark designed to assess the comprehension of Arabic poetry by LLMs in twelve historical eras, covering 21 core poetic genres and a variety of metrical forms, from classical structures to contemporary free verse. The benchmark comprises a curated corpus of poems with explanations that assess semantic understanding, metaphor interpretation, prosodic awareness, and cultural context. We argue that poetic comprehension offers a strong indicator for testing how good the LLM is in understanding classical Arabic through the Arabic poetry. Unlike surface-level tasks, this domain demands deeper interpretive reasoning and cultural sensitivity. Our evaluation of state-of-the-art LLMs shows that most models struggle with poetic understanding despite strong results on standard Arabic benchmarks. We release `Fann or Flop` along with the evaluation suite as an open-source resource to enable rigorous evaluation and advancement for Arabic language models. Code is available at: https://github.com/mbzuai-oryx/FannOrFlop.
arxiv情報
著者 | Wafa Alghallabi,Ritesh Thawkar,Sara Ghaboura,Ketan More,Omkar Thawakar,Hisham Cholakkal,Salman Khan,Rao Muhammad Anwer |
発行日 | 2025-05-23 17:59:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google