Art or Artifice? Large Language Models and the False Promise of Creativity

要約

研究者らは、大規模言語モデル (LLM) はブログからストーリーまで高品質な執筆機能を発揮すると主張しています。
しかし、文章の創造性を客観的に評価することは困難です。
プロセスとしての創造性を測定するトーランス クリエイティブ シンキング テスト (TTCT) に触発され、私たちはコンセンサス評価手法 [3] を使用して、製品としての創造性を評価するためのトーランス クリエイティブ ライティング テスト (TTCW) を提案します。
TTCW は、流暢さ、柔軟性、独創性、精緻性という独自の次元に編成された 14 のバイナリ テストで構成されています。
私たちは 10 人のクリエイティブ ライターを採用し、プロの作家または LLM が TTCW を使用して書いた 48 のストーリーの人的評価を実施します。
私たちの分析によると、LLM で生成されたストーリーは、専門家が書いたストーリーに比べて TTCW テストに合格する確率が 3 ~ 10 分の 1 低いことがわかりました。
さらに、TTCW 評価を自動化するための評価者としての LLM の使用を調査し、LLM のどれも専門家の評価と正の相関関係がないことを明らかにしました。

要約(オリジナル)

Researchers have argued that large language models (LLMs) exhibit high-quality writing capabilities from blogs to stories. However, evaluating objectively the creativity of a piece of writing is challenging. Inspired by the Torrance Test of Creative Thinking (TTCT), which measures creativity as a process, we use the Consensual Assessment Technique [3] and propose the Torrance Test of Creative Writing (TTCW) to evaluate creativity as a product. TTCW consists of 14 binary tests organized into the original dimensions of Fluency, Flexibility, Originality, and Elaboration. We recruit 10 creative writers and implement a human assessment of 48 stories written either by professional authors or LLMs using TTCW. Our analysis shows that LLM-generated stories pass 3-10X less TTCW tests than stories written by professionals. In addition, we explore the use of LLMs as assessors to automate the TTCW evaluation, revealing that none of the LLMs positively correlate with the expert assessments.

arxiv情報

著者 Tuhin Chakrabarty,Philippe Laban,Divyansh Agarwal,Smaranda Muresan,Chien-Sheng Wu
発行日 2023-09-25 22:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク