Ashaar: Automatic Analysis and Generation of Arabic Poetry Using Deep Learning Approaches

要約

詩は、どの国の文化的および伝統的構造の中で計り知れない重要性を持っています。
詩人が自分の感情を表現し、習慣を守り、文化の本質を伝える手段として機能します。
アラビア語の詩も例外ではなく、歴史を通じてアラビア語コミュニティの遺産の中で大切な役割を果たし、現代でもその関連性を維持しています。
通常、アラビア語の詩を理解するには、その内容を分析し、その品質を評価できる言語学者の専門知識が必要です。
このペーパーでは、\textit{Ashaar} https://github.com/ARBML/Ashaar と呼ばれるフレームワークの導入について説明します。これには、アラビア詩の分析と生成のために特別に設計されたデータセットと事前トレーニングされたモデルのコレクションが含まれています。
私たちが提案するアプローチで確立されたパイプラインには、拍子、テーマ、時代分類など、詩のさまざまな側面が含まれます。
また、詩の自動発音記号化も組み込まれており、\textit{Arudi} スタイルの自動抽出など、より複雑な分析が可能になります。
さらに、文字ベースの GPT モデルの事前トレーニングを通じて条件付き詩を生成する可能性を調査します。
さらに、この取り組みの一環として、4 つのデータセットを提供します。1 つは詩生成用、もう 1 つは発音区別符号化用、2 つは Arudi スタイルの予測用です。
これらのデータセットは、研究者や愛好家がこの豊かな文学的伝統の微妙なニュアンスを掘り下げられるようにすることで、アラビア詩の分野での研究開発を促進することを目的としています。

要約(オリジナル)

Poetry holds immense significance within the cultural and traditional fabric of any nation. It serves as a vehicle for poets to articulate their emotions, preserve customs, and convey the essence of their culture. Arabic poetry is no exception, having played a cherished role in the heritage of the Arabic community throughout history and maintaining its relevance in the present era. Typically, comprehending Arabic poetry necessitates the expertise of a linguist who can analyze its content and assess its quality. This paper presents the introduction of a framework called \textit{Ashaar} https://github.com/ARBML/Ashaar, which encompasses a collection of datasets and pre-trained models designed specifically for the analysis and generation of Arabic poetry. The pipeline established within our proposed approach encompasses various aspects of poetry, such as meter, theme, and era classification. It also incorporates automatic poetry diacritization, enabling more intricate analyses like automated extraction of the \textit{Arudi} style. Additionally, we explore the feasibility of generating conditional poetry through the pre-training of a character-based GPT model. Furthermore, as part of this endeavor, we provide four datasets: one for poetry generation, another for diacritization, and two for Arudi-style prediction. These datasets aim to facilitate research and development in the field of Arabic poetry by enabling researchers and enthusiasts to delve into the nuances of this rich literary tradition.

arxiv情報

著者 Zaid Alyafeai,Maged S. Al-Shaibani,Moataz Ahmed
発行日 2023-07-12 15:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク