How Well Can LLMs Echo Us? Evaluating AI Chatbots’ Role-Play Ability with ECHO

要約

大規模言語モデル (LLM) のロールプレイ機能は、人気のある研究の方向性として浮上しています。
しかし、既存の研究は、有名な人物や架空の人物を模倣することに焦点を当てており、一般の個人を模倣する可能性を見落としています。
このような見落としは、ビデオ ゲームにおけるデジタル人間のクローンやノンプレイヤー キャラクターの進歩の可能性を制限します。
このギャップを埋めるために、チューリング テストにヒントを得た評価フレームワークである ECHO を導入します。
このフレームワークは、人間による反応と機械が生成した反応を区別するために、対象となる個人の知人を関与させます。
特に、私たちのフレームワークは、歴史的人物や架空の人物ではなく、平均的な個人をエミュレートすることに重点を置いており、チューリング テストを適用する独自の利点を示しています。
私たちは、OpenAI のオンライン アプリケーション GPT と並行して、基礎モデルとして機能する GPT-3.5 および GPT-4 を使用して、ECHO を使用して 3 つのロールプレイング LLM を評価しました。
私たちの結果は、GPT-4 が人間の評価者をより効果的に欺き、GPT が 48.3% という最高の成功率を達成していることを示しています。
さらに、LLM が人間が生成したテキストと機械が生成したテキストを識別できるかどうかを調査しました。
GPT-4 は相違点を識別できますが、どのテキストが人間によって作成されたかを判断することはできませんでした。
ロールプレイング LLM を再現したコードと結果は、https://github.com/CUHK-ARISE/ECHO 経由で公開されています。

要約(オリジナル)

The role-play ability of Large Language Models (LLMs) has emerged as a popular research direction. However, existing studies focus on imitating well-known public figures or fictional characters, overlooking the potential for simulating ordinary individuals. Such an oversight limits the potential for advancements in digital human clones and non-player characters in video games. To bridge this gap, we introduce ECHO, an evaluative framework inspired by the Turing test. This framework engages the acquaintances of the target individuals to distinguish between human and machine-generated responses. Notably, our framework focuses on emulating average individuals rather than historical or fictional figures, presenting a unique advantage to apply the Turing Test. We evaluated three role-playing LLMs using ECHO, with GPT-3.5 and GPT-4 serving as foundational models, alongside the online application GPTs from OpenAI. Our results demonstrate that GPT-4 more effectively deceives human evaluators, and GPTs achieves a leading success rate of 48.3%. Furthermore, we investigated whether LLMs could discern between human-generated and machine-generated texts. While GPT-4 can identify differences, it could not determine which texts were human-produced. Our code and results of reproducing the role-playing LLMs are made publicly available via https://github.com/CUHK-ARISE/ECHO.

arxiv情報

著者 Man Tik Ng,Hui Tung Tse,Jen-tse Huang,Jingjing Li,Wenxuan Wang,Michael R. Lyu
発行日 2024-04-22 08:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク