Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach

要約

クリエイティブライティングは、文学、ストーリーテリング、さまざまなクリエイティブドメインの潜在的なアプリケーションを備えた大規模な言語モデル(LLM)の重要な機能です。
ただし、既存の方法は費用のかかる手動注釈に依存しているか、人間の評価と密接に連携できないため、機械で生成されたテキストの創造性を評価することは重要な課題のままです。
この論文では、創造性を製品として評価するクリエイティブライティングのトーランステスト(TTCW)に基づいた効果的な自動評価方法を提案します。
私たちの方法では、参照ベースのリッカートスタイルのアプローチを採用しており、さまざまなテストにわたる高品質の参照テキストに比べて生成された創造テキストをスコアリングします。
実験結果は、この方法がLLM評価と人間の評価とのアラインメントを大幅に改善し、0.75(+15 \%)のペアワイズ精度を達成することを示しています。

要約(オリジナル)

Creative writing is a key capability of Large Language Models (LLMs), with potential applications in literature, storytelling, and various creative domains. However, evaluating the creativity of machine-generated texts remains a significant challenge, as existing methods either rely on costly manual annotations or fail to align closely with human assessments. In this paper, we propose an effective automated evaluation method based on the Torrance Test of Creative Writing (TTCW), which evaluates creativity as product. Our method employs a reference-based Likert-style approach, scoring generated creative texts relative to high-quality reference texts across various tests. Experimental results demonstrate that our method significantly improves the alignment between LLM evaluations and human assessments, achieving a pairwise accuracy of 0.75 (+15\%).

arxiv情報

著者 Ruizhe Li,Chiwei Zhu,Benfeng Xu,Xiaorui Wang,Zhendong Mao
発行日 2025-04-22 10:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク