要約
自然言語処理の分野では、大規模言語モデル (LLM) の急速な開発がますます注目を集めています。
LLM はさまざまなタスクにおいて高い創造性を示していますが、そのような創造性を評価する方法は不十分です。
LLMの創造性の評価には人間との違いを考慮する必要があり、精度と効率のバランスをとりながら多次元で測定する必要があります。
この文書は、LLM の創造性のレベルを評価するための効率的なフレームワークを確立することを目的としています。
この研究では、修正された創造的思考のトーランス テストを適用することにより、流暢さ、柔軟性、独創性、精緻性を含む 4 つの基準に重点を置き、7 つのタスクにわたってさまざまな LLM の創造的パフォーマンスを評価しています。
これに関連して、私たちはテスト用の 700 の質問からなる包括的なデータセットと LLM ベースの評価方法を開発しました。
さらに、この研究は、多様なプロンプトやロールプレイ状況に対する LLM の反応に関する新しい分析を示しています。
LLM の創造性は主に独創性という点では劣っているものの、精緻化という点では優れていることがわかりました。
さらに、プロンプトの使用とモデルのロールプレイ設定は、創造性に大きく影響します。
さらに、実験結果は、複数の LLM 間の連携により独自性を高めることができることも示しています。
特に、私たちの調査結果は、創造性に影響を与える性格特性に関して、人間の評価とLLMの間で一致していることを明らかにしています。
この調査結果は、LLM の設計が創造性に与える重大な影響を強調し、人工知能と人間の創造性の橋渡しとなり、LLM の創造性と潜在的なアプリケーションについての洞察を提供します。
要約(オリジナル)
In the field of natural language processing, the rapid development of large language model (LLM) has attracted more and more attention. LLMs have shown a high level of creativity in various tasks, but the methods for assessing such creativity are inadequate. The assessment of LLM creativity needs to consider differences from humans, requiring multi-dimensional measurement while balancing accuracy and efficiency. This paper aims to establish an efficient framework for assessing the level of creativity in LLMs. By adapting the modified Torrance Tests of Creative Thinking, the research evaluates the creative performance of various LLMs across 7 tasks, emphasizing 4 criteria including Fluency, Flexibility, Originality, and Elaboration. In this context, we develop a comprehensive dataset of 700 questions for testing and an LLM-based evaluation method. In addition, this study presents a novel analysis of LLMs’ responses to diverse prompts and role-play situations. We found that the creativity of LLMs primarily falls short in originality, while excelling in elaboration. Besides, the use of prompts and the role-play settings of the model significantly influence creativity. Additionally, the experimental results also indicate that collaboration among multiple LLMs can enhance originality. Notably, our findings reveal a consensus between human evaluations and LLMs regarding the personality traits that influence creativity. The findings underscore the significant impact of LLM design on creativity and bridges artificial intelligence and human creativity, offering insights into LLMs’ creativity and potential applications.
arxiv情報
著者 | Yunpu Zhao,Rui Zhang,Wenyi Li,Di Huang,Jiaming Guo,Shaohui Peng,Yifan Hao,Yuanbo Wen,Xing Hu,Zidong Du,Qi Guo,Ling Li,Yunji Chen |
発行日 | 2024-01-23 05:19:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google