Do LLMs Agree on the Creativity Evaluation of Alternative Uses?

要約

この論文では、大規模言語モデル (LLM) が代替使用テスト (AUT) への応答における創造性の評価において一致を示すかどうかを調査します。
LLM はクリエイティブなコンテンツを評価するために使用されることが増えていますが、これまでの研究は主に、同じモデルまたは人間によって生成された応答を評価する単一のモデルに焦点を当てていました。
この論文では、LLM が自身と他のモデルの両方によって生成された出力の創造性を公平かつ正確に評価できるかどうかを検討します。
創造性レベル (一般的、創造的、高度に創造的) ごとに分類された AUT 応答のオラクル ベンチマーク セットを使用して、これらの出力を評価する 4 つの最先端の LLM を実験します。
私たちはスコアリングとランキングの両方の方法をテストし、2 つの評価設定 (包括的およびセグメント化) を採用して、LLM が代替用途の創造性評価に同意しているかどうかを検査します。
結果は、モデル間の高い一致を明らかにし、スピアマン相関はモデル全体で平均 0.7 を超え、オラクルに関しては 0.77 以上に達しました。これは、高いレベルの一致を示し、代替用途の創造性評価における LLM の信頼性を検証します。
特に、モデルは独自の応答を優先せず、代わりに、他のモデルによって生成された代替用途に対して同様の創造性評価スコアまたはランキングを提供します。
これらの発見は、LLM が創造性評価において公平性と高い整合性を示し、自動化された創造性評価における LLM の使用に有望な示唆を与えることを示唆しています。

要約(オリジナル)

This paper investigates whether large language models (LLMs) show agreement in assessing creativity in responses to the Alternative Uses Test (AUT). While LLMs are increasingly used to evaluate creative content, previous studies have primarily focused on a single model assessing responses generated by the same model or humans. This paper explores whether LLMs can impartially and accurately evaluate creativity in outputs generated by both themselves and other models. Using an oracle benchmark set of AUT responses, categorized by creativity level (common, creative, and highly creative), we experiment with four state-of-the-art LLMs evaluating these outputs. We test both scoring and ranking methods and employ two evaluation settings (comprehensive and segmented) to examine if LLMs agree on the creativity evaluation of alternative uses. Results reveal high inter-model agreement, with Spearman correlations averaging above 0.7 across models and reaching over 0.77 with respect to the oracle, indicating a high level of agreement and validating the reliability of LLMs in creativity assessment of alternative uses. Notably, models do not favour their own responses, instead they provide similar creativity assessment scores or rankings for alternative uses generated by other models. These findings suggest that LLMs exhibit impartiality and high alignment in creativity evaluation, offering promising implications for their use in automated creativity assessment.

arxiv情報

著者 Abdullah Al Rabeyah,Fabrício Góes,Marco Volpe,Talles Medeiros
発行日 2024-11-26 09:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク