The GPT-WritingPrompts Dataset: A Comparative Analysis of Character Portrayal in Short Stories

要約

大規模言語モデルの生成能力が向上したことにより、大規模言語モデルは創造的な執筆やストーリーテリングのための強力なツールになりました。
したがって、生成されたストーリーの性質と、それが人間のストーリーテリングとどのように異なるかを定量的に理解することが重要です。
同じプロンプトを与えて、GPT-3.5 によって生成された短編ストーリーを Reddit WritingPrompts データセットに追加します。
私たちは、人間と機械の両方の生成プロセスからのストーリーテリングの感情的および記述的特徴を、一連の 6 つの次元に沿って定量化し、比較します。
私たちは、生成された物語が 6 つの次元すべてにおいて人間の物語とは大きく異なり、物語の視点と主人公の性別に従ってグループ化された場合、人間と機械の世代が同様のバイアスを示すことを発見しました。
データセットとコードは https://github.com/KristinHuangg/gpt-writing-prompts でリリースされています。

要約(オリジナル)

The improved generative capabilities of large language models have made them a powerful tool for creative writing and storytelling. It is therefore important to quantitatively understand the nature of generated stories, and how they differ from human storytelling. We augment the Reddit WritingPrompts dataset with short stories generated by GPT-3.5, given the same prompts. We quantify and compare the emotional and descriptive features of storytelling from both generative processes, human and machine, along a set of six dimensions. We find that generated stories differ significantly from human stories along all six dimensions, and that human and machine generations display similar biases when grouped according to the narrative point-of-view and gender of the main protagonist. We release our dataset and code at https://github.com/KristinHuangg/gpt-writing-prompts.

arxiv情報

著者 Xi Yu Huang,Krishnapriya Vishnubhotla,Frank Rudzicz
発行日 2024-06-24 16:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク