要約
大規模言語モデル (LLM) がさまざまな言語関連のタスクにおいて平均的な人間を上回っているという研究結果を報告することは日常的に行われており、クリエイティブなテキスト作成も例外ではありません。
したがって、入札額を上げるのは自然なことのように思えます。LLM は、(平均的ではなく)一流の小説家と創造的な執筆スキルで競争する準備ができていますか?
この質問に対する最初の答えを提供するために、私たちは AI の精神に基づいて、Patricio Pron (受賞歴のある小説家であり、同世代の最高の作家の一人と考えられています) と GPT-4 (トップパフォーマンスの LLM の 1 つ) の間でコンテストを実施しました。
-DeepBlue対カスパロフ、AlphaGo対リー・シドルなどの人間の決闘。
私たちは Pron と GPT-4 にそれぞれ 30 のタイトルを提供し、自分たちのタイトルと対戦相手のタイトルの両方について短編小説を書くように依頼しました。
次に、ボーデンの創造性の定義に触発された評価ルーブリックを作成し、文学評論家や学者によって提供された 5,400 件の手動評価を収集しました。
私たちの実験の結果は、LLM がトップレベルの人間のクリエイティブ ライターに挑戦するにはまだ遠く、そのようなレベルの自律的なクリエイティブ ライティング スキルに到達することは、おそらく、より大きな言語モデルだけでは到達できないことを示しています。
要約(オリジナル)
It has become routine to report research results where Large Language Models (LLMs) outperform average humans in a wide range of language-related tasks, and creative text writing is no exception. It seems natural, then, to raise the bid: Are LLMs ready to compete in creative writing skills with a top (rather than average) novelist? To provide an initial answer for this question, we have carried out a contest between Patricio Pron (an awarded novelist, considered one of the best of his generation) and GPT-4 (one of the top performing LLMs), in the spirit of AI-human duels such as DeepBlue vs Kasparov and AlphaGo vs Lee Sidol. We asked Pron and GPT-4 to provide thirty titles each, and then to write short stories for both their titles and their opponent’s. Then, we prepared an evaluation rubric inspired by Boden’s definition of creativity, and we collected 5,400 manual assessments provided by literature critics and scholars. The results of our experimentation indicate that LLMs are still far from challenging a top human creative writer, and that reaching such level of autonomous creative writing skills probably cannot be reached simply with larger language models.
arxiv情報
著者 | Guillermo Marco,Julio Gonzalo,Ramón del Castillo,María Teresa Mateo Girona |
発行日 | 2024-10-28 16:32:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google