X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

要約

チューリングテストでは、AISが自然言語の会話で人間のような行動を示すかどうかを調べます。
従来の設定では、各参加者を一度に1つのメッセージに制限し、常に人間の参加が必要です。
これは、自然な会話スタイルを反映することができず、複雑で長期にわたる相互作用における大規模な言語モデル(LLM)に基づいて対話エージェントの評価を妨げます。
このペーパーでは、\ textBf {\ textSc {x-turing}}を提案します。これにより、\ textit {バーストダイアログ}パターンで元のテストが強化され、連続したメッセージを使用してより動的な交換が可能になります。
さらに、エージェントと人間の間の長期的な相互作用をシミュレートするためにテストプロセスの大部分を構成する反復的に生成する対話により、人間のワークロードをさらに削減します。
\ textit {pseudo-dialogue}の歴史により、エージェントは本物の人間との短い対話に従事します。これは、アンケートを使用して審査される同じトピックに関する人間の人間の会話と組み合わされます。
\ textit {x-turnパスレート}メトリックを導入して、さまざまな期間にわたるLLMの人間の肖像を評価します。
GPT-4のようなLLMは最初はうまく機能しますが、それぞれ3ターンと10ターンのダイアログで51.9%と38.9%の合格率を達成しますが、対話が進むにつれてパフォーマンスが低下し、長期的に一貫性を維持することが強くなります。

要約(オリジナル)

The Turing test examines whether AIs exhibit human-like behaviour in natural language conversations. The traditional setting limits each participant to one message at a time and requires constant human participation. This fails to reflect a natural conversational style and hinders the evaluation of dialogue agents based on Large Language Models (LLMs) in complex and prolonged interactions. This paper proposes \textbf{\textsc{X-Turing}}, which enhances the original test with a \textit{burst dialogue} pattern, allowing more dynamic exchanges using consecutive messages. It further reduces human workload by iteratively generating dialogues that simulate the long-term interaction between the agent and a human to compose the majority of the test process. With the \textit{pseudo-dialogue} history, the agent then engages in a shorter dialogue with a real human, which is paired with a human-human conversation on the same topic to be judged using questionnaires. We introduce the \textit{X-Turn Pass-Rate} metric to assess the human likeness of LLMs across varying durations. While LLMs like GPT-4 initially perform well, achieving pass rates of 51.9\% and 38.9\% during 3 turns and 10 turns of dialogues respectively, their performance drops as the dialogue progresses, which underscores the difficulty in maintaining consistency in the long term.

arxiv情報

著者 Weiqi Wu,Hongqiu Wu,Hai Zhao
発行日 2025-05-29 16:08:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク