要約
大規模言語モデル (LLM) は優れたパフォーマンスを実証し、多数の AI アプリケーションを促進してきました。その中で、ロール プレイング エージェント (RPA) は、特に架空のキャラクターに対して特に人気があります。
これらの RPA の前提条件は、架空の作品の登場人物を理解する LLM の機能にあります。
これまでの取り組みでは、基本的な分類タスクや特性の模倣によってこの機能を評価していましたが、LLM による微妙な文字の理解を捉えることができませんでした。
この論文では、キャラクタープロファイリングタスク、つまり、RPA開発で広く採用されているものの十分に研究されていない実践である、対応するマテリアルからキャラクタープロファイルを要約することによって、LLMのキャラクター理解能力を評価することを提案します。
具体的には、文献専門家から CroSS データセットを構築し、グラウンド トゥルース参照と下流タスクでの適用可能性を比較することによって、生成されたプロファイルを評価します。
さまざまな要約手法と LLM を対象とした私たちの実験では、有望な結果が得られました。
これらの結果は、LLM の文字理解能力を強力に検証します。
リソースは https://github.com/Joanna0123/character_profiling で入手できます。
要約(オリジナル)
Large language models (LLMs) have demonstrated impressive performance and spurred numerous AI applications, in which role-playing agents (RPAs) are particularly popular, especially for fictional characters. The prerequisite for these RPAs lies in the capability of LLMs to understand characters from fictional works. Previous efforts have evaluated this capability via basic classification tasks or characteristic imitation, failing to capture the nuanced character understanding with LLMs. In this paper, we propose evaluating LLMs’ character understanding capability via the character profiling task, i.e., summarizing character profiles from corresponding materials, a widely adopted yet understudied practice for RPA development. Specifically, we construct the CroSS dataset from literature experts and assess the generated profiles by comparing ground truth references and their applicability in downstream tasks. Our experiments, which cover various summarization methods and LLMs, have yielded promising results. These results strongly validate the character understanding capability of LLMs. Resources are available at https://github.com/Joanna0123/character_profiling.
arxiv情報
著者 | Xinfeng Yuan,Siyu Yuan,Yuhan Cui,Tianhe Lin,Xintao Wang,Rui Xu,Jiangjie Chen,Deqing Yang |
発行日 | 2024-07-02 14:01:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google