Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs


この論文では、微調整された小型言語モデル (SLM) である BART-large のクリエイティブ フィクション執筆能力を評価し、そのパフォーマンスを人間の作家および 2 つの大型言語モデル (LLM): GPT-3.5 および GPT-4o と比較します。

私たちの評価は 2 つの実験で構成されています。(i) 68 人の参加者が文法性、関連性、創造性、魅力に関して人間と SLM の短編小説を評価する人体研究、および (ii) 制作された物語のテキストの特徴を調べる定性的言語分析
最初の実験では、BART-large は平均的な人間のライター全体のスコアを上回り (2.11 対 1.85)、相対的に 14% 向上しましたが、創造性における人間のわずかな優位性は統計的に有意ではありませんでした。
2 番目の実験では、定性分析により、GPT-4o はほぼ完璧な一貫性を示し、決まり文句の使用が少ない一方で、より予測可能な言語を生成する傾向があり、驚くべき関連性を特徴とする概要は 3% のみであることが示されました (BART の 15% と比較)。



In this paper, we evaluate the creative fiction writing abilities of a fine-tuned small language model (SLM), BART-large, and compare its performance to human writers and two large language models (LLMs): GPT-3.5 and GPT-4o. Our evaluation consists of two experiments: (i) a human study in which 68 participants rated short stories from humans and the SLM on grammaticality, relevance, creativity, and attractiveness, and (ii) a qualitative linguistic analysis examining the textual characteristics of stories produced by each model. In the first experiment, BART-large outscored average human writers overall (2.11 vs. 1.85), a 14% relative improvement, though the slight human advantage in creativity was not statistically significant. In the second experiment, qualitative analysis showed that while GPT-4o demonstrated near-perfect coherence and used less cliche phrases, it tended to produce more predictable language, with only 3% of its synopses featuring surprising associations (compared to 15% for BART). These findings highlight how model size and fine-tuning influence the balance between creativity, fluency, and coherence in creative writing tasks, and demonstrate that smaller models can, in certain contexts, rival both humans and larger models.


著者 Guillermo Marco,Luz Rello,Julio Gonzalo
発行日 2025-01-13 15:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク