要約
大規模言語モデルは人間の代わりに重要な意思決定を行うことができるでしょうか?
最近の研究では、LLM が割り当てられたペルソナをロールプレイし、知識や言語習慣を模倣する可能性があることが明らかになりました。
ただし、模倣的な意思決定には、ペルソナをより微妙に理解する必要があります。
このペーパーでは、ペルソナ主導の意思決定における LLM の能力をベンチマークします。
具体的には、高品質の小説の先行ストーリーで提供される登場人物の決定を LLM が予測できるかどうかを調査します。
文学の専門家によって書かれた性格分析を活用して、395 冊の本からの 1,401 の性格決定ポイントで構成されるデータセット LIFECHOICE を構築します。
次に、さまざまな LLM と LLM ロールプレイング手法を使用して、LIFECHOICE 上で包括的な実験を行います。
この結果は、最先端の LLM がこのタスクにおいて有望な機能を発揮するものの、改善の余地がかなりあることを示しています。
そこで、ペルソナベースの記憶検索により 6.01% の精度向上を達成する CHARMAP 手法をさらに提案します。
データセットとコードを公開します。
要約(オリジナル)
Can Large Language Models substitute humans in making important decisions? Recent research has unveiled the potential of LLMs to role-play assigned personas, mimicking their knowledge and linguistic habits. However, imitative decision-making requires a more nuanced understanding of personas. In this paper, we benchmark the ability of LLMs in persona-driven decision-making. Specifically, we investigate whether LLMs can predict characters’ decisions provided with the preceding stories in high-quality novels. Leveraging character analyses written by literary experts, we construct a dataset LIFECHOICE comprising 1,401 character decision points from 395 books. Then, we conduct comprehensive experiments on LIFECHOICE, with various LLMs and methods for LLM role-playing. The results demonstrate that state-of-the-art LLMs exhibit promising capabilities in this task, yet there is substantial room for improvement. Hence, we further propose the CHARMAP method, which achieves a 6.01% increase in accuracy via persona-based memory retrieval. We will make our datasets and code publicly available.
arxiv情報
著者 | Rui Xu,Xintao Wang,Jiangjie Chen,Siyu Yuan,Xinfeng Yuan,Jiaqing Liang,Zulong Chen,Xiaoqing Dong,Yanghua Xiao |
発行日 | 2024-04-18 12:40:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google