ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation

要約

古典アラビア語は、アラブ文化、哲学、科学文献の黄金時代を包括する重要な時代を表しています。
コミュニティ全体での知識の普及を強化するためにこれらの文献を翻訳することの重要性については幅広いコンセンサスが得られており、大規模言語モデル (LLM) と翻訳システムの出現により、この目標を促進する有望なツールが提供されます。
しかし、古典アラビア語の翻訳データセットが不足していることが判明しました。これらのデータセットは範囲やトピックが限られていることが多く、高品質の翻訳システムの開発を妨げています。
これに応えて、科学、文化、哲学など幅広い主題をカバーする 66,000 の高品質な古典アラビア語から英語への翻訳サンプルで構成される ATHAR データセットを紹介します。
さらに、さまざまな設定の下で現在の最先端の LLM のパフォーマンスを評価し、現在のシステムにはそのようなデータセットが必要であると結論付けています。
私たちの調査結果は、このデータセットを事前トレーニング パイプラインに微調整したり組み込んだりすることでモデルがどのようなメリットを得られるかを浮き彫りにしています。
データセットは、\url{https://huggingface.co/datasets/mohamed-khalil/ATHAR} の HuggingFace データ ハブで公開されています。

要約(オリジナル)

Classical Arabic represents a significant era, encompassing the golden age of Arab culture, philosophy, and scientific literature. With a broad consensus on the importance of translating these literatures to enrich knowledge dissemination across communities, the advent of large language models (LLMs) and translation systems offers promising tools to facilitate this goal. However, we have identified a scarcity of translation datasets in Classical Arabic, which are often limited in scope and topics, hindering the development of high-quality translation systems. In response, we present the ATHAR dataset, comprising 66,000 high-quality Classical Arabic to English translation samples that cover a wide array of subjects including science, culture, and philosophy. Furthermore, we assess the performance of current state-of-the-art LLMs under various settings, concluding that there is a need for such datasets in current systems. Our findings highlight how models can benefit from fine-tuning or incorporating this dataset into their pretraining pipelines. The dataset is publicly available on the HuggingFace Data Hub at \url{https://huggingface.co/datasets/mohamed-khalil/ATHAR}.

arxiv情報

著者 Mohammed Khalil,Mohammed Sabry
発行日 2024-07-29 09:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク