要約
大規模な言語モデル(LLM)には、高度な会話型AIアシスタントがあります。
ただし、これらのアシスタントがパーソナライゼーションをどの程度適用するかを体系的に評価します – タスクの完了中に個々のユーザーの好みに適応する – は困難です。
既存のパーソナライゼーションベンチマークは、チットチャット、非変換タスク、または狭いドメインに焦点を当てており、パーソナライズされたタスク指向の支援の複雑さをキャプチャできません。
これに対処するために、タスク指向のAIアシスタントにおけるパーソナライズを評価するための包括的なベンチマークであるAssillensを紹介します。
当社のベンチマークには、豊富な好みと相互作用の履歴を備えた多様なユーザープロファイル、および2つの専門的なLLMベースのエージェントとともに、AIアシスタントとの現実的なタスク指向の対話に従事するユーザーエージェント、およびパーソナライズ、対応の質、およびタスクの成功を評価するためにLLM-A-A-Judgeパラダイムを採用する裁判官エージェント。
多様なタスク全体の現在のLLMアシスタントを使用した広範な実験を通じて、パーソナライズ能力の大幅な変動性を明らかにし、会話型AIシステムを進めるための重要な洞察を提供します。
要約(オリジナル)
Large language models (LLMs) have advanced conversational AI assistants. However, systematically evaluating how well these assistants apply personalization–adapting to individual user preferences while completing tasks–remains challenging. Existing personalization benchmarks focus on chit-chat, non-conversational tasks, or narrow domains, failing to capture the complexities of personalized task-oriented assistance. To address this, we introduce PersonaLens, a comprehensive benchmark for evaluating personalization in task-oriented AI assistants. Our benchmark features diverse user profiles equipped with rich preferences and interaction histories, along with two specialized LLM-based agents: a user agent that engages in realistic task-oriented dialogues with AI assistants, and a judge agent that employs the LLM-as-a-Judge paradigm to assess personalization, response quality, and task success. Through extensive experiments with current LLM assistants across diverse tasks, we reveal significant variability in their personalization capabilities, providing crucial insights for advancing conversational AI systems.
arxiv情報
著者 | Zheng Zhao,Clara Vania,Subhradeep Kayal,Naila Khan,Shay B. Cohen,Emine Yilmaz |
発行日 | 2025-06-11 16:16:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google