要約
この論文では、微調整された小型言語モデル (SLM) である BART-large のクリエイティブ フィクション執筆能力を評価し、そのパフォーマンスを人間の作家および 2 つの大型言語モデル (LLM): GPT-3.5 および GPT-4o と比較します。
。
私たちの評価は 2 つの実験で構成されています。(i) 68 人の参加者が文法性、関連性、創造性、魅力に関して人間と SLM の短編小説を評価する人体研究、および (ii) 制作された物語のテキストの特徴を調べる定性的言語分析
各モデルごとに。
最初の実験では、BART-large は平均的な人間のライター全体のスコアを上回り (2.11 対 1.85)、相対的に 14% 向上しましたが、創造性における人間のわずかな優位性は統計的に有意ではありませんでした。
2 番目の実験では、定性分析により、GPT-4o はほぼ完璧な一貫性を示し、決まり文句の使用が少ない一方で、より予測可能な言語を生成する傾向があり、驚くべき関連性を特徴とする概要は 3% のみであることが示されました (BART の 15% と比較)。
。
これらの発見は、モデルのサイズと微調整が、クリエイティブライティングタスクにおける創造性、流暢性、一貫性のバランスにどのように影響するかを明らかにし、特定の状況では、より小さなモデルが人間とより大きなモデルの両方に匹敵する可能性があることを実証しています。
要約(オリジナル)
In this paper, we evaluate the creative fiction writing abilities of a fine-tuned small language model (SLM), BART-large, and compare its performance to human writers and two large language models (LLMs): GPT-3.5 and GPT-4o. Our evaluation consists of two experiments: (i) a human study in which 68 participants rated short stories from humans and the SLM on grammaticality, relevance, creativity, and attractiveness, and (ii) a qualitative linguistic analysis examining the textual characteristics of stories produced by each model. In the first experiment, BART-large outscored average human writers overall (2.11 vs. 1.85), a 14% relative improvement, though the slight human advantage in creativity was not statistically significant. In the second experiment, qualitative analysis showed that while GPT-4o demonstrated near-perfect coherence and used less cliche phrases, it tended to produce more predictable language, with only 3% of its synopses featuring surprising associations (compared to 15% for BART). These findings highlight how model size and fine-tuning influence the balance between creativity, fluency, and coherence in creative writing tasks, and demonstrate that smaller models can, in certain contexts, rival both humans and larger models.
arxiv情報
著者 | Guillermo Marco,Luz Rello,Julio Gonzalo |
発行日 | 2025-01-13 15:37:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google