要約
アラビア語のウィキペディアの適切な名前はしばしば触覚化されており、特に外国起源の音訳された指定されたエンティティの発音と解釈に曖昧さを生み出します。
音訳と二項化はアラビア語のNLPで別々に研究されていますが、それらの交差点は露出していないままです。
この論文では、英語のウィキペディアに相当する光沢を備えたさまざまな起源のアラビア語の固有名詞の新しい手動での異なるデータセットを紹介し、それを作成するために従った課題とガイドラインを提示します。
GPT-4Oは、アラビア語と英語の未積型とそのパフォーマンスを考慮して、完全な二項化を回復するタスクに基づいています。
73%の精度を達成した結果、私たちの結果は、タスクの難易度と改善されたモデルとリソースの必要性の両方を強調しています。
データセットをリリースして、アラビア語のウィキペディアの適切な名前ディクリット化に関するさらなる研究を容易にします。
要約(オリジナル)
Proper names in Arabic Wikipedia are frequently undiacritized, creating ambiguity in pronunciation and interpretation, especially for transliterated named entities of foreign origin. While transliteration and diacritization have been well-studied separately in Arabic NLP,their intersection remains underexplored. In this paper, we introduce a new manually diacritized dataset of Arabic proper names of various origins with their English Wikipedia equivalent glosses, and present the challenges and guidelines we followed to create it. We benchmark GPT-4o on the task of recovering full diacritization given the undiacritized Arabic and English forms, and analyze its performance. Achieving 73% accuracy, our results underscore both the difficulty of the task and the need for improved models and resources. We release our dataset to facilitate further research on Arabic Wikipedia proper name diacritization.
arxiv情報
著者 | Rawan Bondok,Mayar Nassar,Salam Khalifa,Kurt Micallaf,Nizar Habash |
発行日 | 2025-05-05 14:03:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google