GPT-4 Generated Narratives of Life Events using a Structured Narrative Prompt: A Validation Study


大規模言語モデル (LLM) は、膨大な数の物語を生成する上で極めて重要な役割を果たし、人生の出来事を物語形式で伝えるための有効性の体系的な探求を容易にします。
この研究では、OpenAI の GPT-4 を使用してゼロショット構造化ナラティブ プロンプトを採用し、24,000 のナラティブを生成しました。
このデータセットから、2,880 の物語を手動で分類し、誕生、死亡、雇用、解雇のイベントを伝える際の妥当性を評価します。
注目すべきことに、物語の 87.43% が構造化されたプロンプトの意図を十分に伝えています。
有効なナラティブと無効なナラティブの識別を自動化するために、分類されたデータセットで 9 つの機械学習モデルをトレーニングし、検証します。
これらのモデルを活用して、残りの 21,120 の物語の分類を予測するために分析を拡張します。
すべての ML モデルは、有効なナラティブを有効として分類することに優れていましたが、無効なナラティブを同時に無効として分類する際には課題がありました。
私たちの発見は、LLM の機能、制限、有効性の研究を前進させるだけでなく、物語生成と自然言語処理アプリケーションに対する実用的な洞察も提供します。


Large Language Models (LLMs) play a pivotal role in generating vast arrays of narratives, facilitating a systematic exploration of their effectiveness for communicating life events in narrative form. In this study, we employ a zero-shot structured narrative prompt to generate 24,000 narratives using OpenAI’s GPT-4. From this dataset, we manually classify 2,880 narratives and evaluate their validity in conveying birth, death, hiring, and firing events. Remarkably, 87.43% of the narratives sufficiently convey the intention of the structured prompt. To automate the identification of valid and invalid narratives, we train and validate nine Machine Learning models on the classified datasets. Leveraging these models, we extend our analysis to predict the classifications of the remaining 21,120 narratives. All the ML models excelled at classifying valid narratives as valid, but experienced challenges at simultaneously classifying invalid narratives as invalid. Our findings not only advance the study of LLM capabilities, limitations, and validity but also offer practical insights for narrative generation and natural language processing applications.


著者 Christopher J. Lynch,Erik Jensen,Madison H. Munro,Virginia Zamponi,Joseph Martinez,Kevin O’Brien,Brandon Feldhaus,Katherine Smith,Ann Marie Reinhold,Ross Gore
発行日 2024-07-12 13:46:47+00:00
