要約
アラビア語のテキストは、言語の形態学的な豊かさのために、自然言語処理における持続的な課題のままです。
この論文では、Kuwain 1.5b Hennara et al。
[2025]、もともと多様なアラビア語のコーパスで訓練されたコンパクトモデル。
Sadeedは、厳密なデータクリーニングと正規化パイプラインを介して構築された、慎重にキュレーションされた高品質のジクライト化データセットで微調整されています。
控えめな計算リソースを利用しているにもかかわらず、Sadeedは独自の大規模な言語モデルと比較して競争結果を達成し、同様のドメインで訓練された従来のモデルを上回ります。
さらに、アラビア語の二項化のための現在のベンチマークプラクティスの重要な制限を強調しています。
これらの問題に対処するために、さまざまなテキストジャンルと複雑さレベルでより公平で包括的な評価を可能にするように設計された新しいベンチマークであるSadeeddiac-25を紹介します。
SadeedとSadeeddiac-25を合わせて、機械の翻訳、テキストへの語り方、言語学習ツールなど、アラビア語のNLPアプリケーションを進めるための堅牢な基盤を提供します。
要約(オリジナル)
Arabic text diacritization remains a persistent challenge in natural language processing due to the language’s morphological richness. In this paper, we introduce Sadeed, a novel approach based on a fine-tuned decoder-only language model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully curated, high-quality diacritized datasets, constructed through a rigorous data-cleaning and normalization pipeline. Despite utilizing modest computational resources, Sadeed achieves competitive results compared to proprietary large language models and outperforms traditional models trained on similar domains. Additionally, we highlight key limitations in current benchmarking practices for Arabic diacritization. To address these issues, we introduce SadeedDiac-25, a new benchmark designed to enable fairer and more comprehensive evaluation across diverse text genres and complexity levels. Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing Arabic NLP applications, including machine translation, text-to-speech, and language learning tools.
arxiv情報
著者 | Zeina Aldallal,Sara Chrouf,Khalil Hennara,Mohamed Motaism Hamed,Muhammad Hreden,Safwan AlModhayan |
発行日 | 2025-04-30 13:37:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google