Arabic Automatic Story Generation with Large Language Models

要約

大規模言語モデル (LLM) は、幅広い言語生成タスクのための強力なツールとして最近登場しました。
それにもかかわらず、アラビア語ではこの進歩が遅れています。
この作業では、LLM からストーリーを生成するタスクに焦点を当てます。
トレーニングには、GPT-4 だけでなく機械翻訳 (MT) を通じて取得したストーリーも使用します。
MT データについては、高品質のストーリーを確実に取得できるように慎重なパイプラインを開発しています。
GPT-41 データには、現代標準アラビア語 (MSA) と 2 つのアラビア語方言 (エジプト語とモロッコ語) の両方でアラビア語のコンテキストに適したデータを生成できるように作成されたプロンプトが導入されています。
たとえば、さまざまなアラブ諸国に合わせた幅広いトピックに関するストーリーを作成します。
手動による評価では、これらのトレーニング データセットに基づいて微調整されたモデルが、指示に従った一貫したストーリーを生成できることが示されています。
また、当社のモデルと最先端の独自モデルおよびオープンソース モデルを比較する広範な自動および人的評価も実施します。
私たちのデータセットとモデルは、https://github.com/UBC-NLP/arastories で公開されます。

要約(オリジナル)

Large language models (LLMs) have recently emerged as a powerful tool for a wide range of language generation tasks. Nevertheless, this progress has been slower in Arabic. In this work, we focus on the task of generating stories from LLMs. For our training, we use stories acquired through machine translation (MT) as well as GPT-4. For the MT data, we develop a careful pipeline that ensures we acquire high-quality stories. For our GPT-41 data, we introduce crafted prompts that allow us to generate data well-suited to the Arabic context in both Modern Standard Arabic (MSA) and two Arabic dialects (Egyptian and Moroccan). For example, we generate stories tailored to various Arab countries on a wide host of topics. Our manual evaluation shows that our model fine-tuned on these training datasets can generate coherent stories that adhere to our instructions. We also conduct an extensive automatic and human evaluation comparing our models against state-of-the-art proprietary and open-source models. Our datasets and models will be made publicly available at https: //github.com/UBC-NLP/arastories.

arxiv情報

著者 Ahmed Oumar El-Shangiti,Fakhraddin Alwajih,Muhammad Abdul-Mageed
発行日 2024-07-10 11:26:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク