要約
大規模な言語モデル(LLM)はチャットボットとしてますます使用されていますが、ユーザーの好みに対する応答をパーソナライズする能力は依然として限られています。
Prefevalを紹介します。これは、LLMSの長い文書の会話設定でユーザーの好みを推測、記憶、遵守する能力を評価するためのベンチマークを紹介します。
Prevevalは、20のトピックにまたがる3,000の手動でキュレーションされたユーザーの好みとクエリペアで構成されています。
Prevevalには、明示的なフォームと暗黙的なフォームの両方でユーザーのパーソナライズまたは優先情報が含まれ、世代と分類タスクを使用してLLMパフォーマンスを評価します。
PRENTEVALでは、さまざまなコンテキストの長さが最大100kトークンで、マルチセッションの会話で、10のオープンソースと独自のLLMの能力に従って、前述の好みを評価しました。
さまざまなプロンプト、反復フィードバック、および検索された生成方法でベンチマークします。
私たちのベンチマークの取り組みは、最先端のLLMSが会話中のユーザーの好みを積極的に追う際に重要な課題に直面していることを明らかにしています。
特に、ゼロショット設定では、ほとんどの評価されているモデルでは、精度後の優先度はわずか10ターン(〜3Kトークン)で10%を下回ります。
高度なプロンプトと検索の方法があっても、長時間の会話では、以下がまだ悪化しています。
さらに、威力の微調整がパフォーマンスを大幅に改善することを示しています。
Prefevalは、LLMSの好みを測定、理解し、強化するための貴重なリソースとして機能し、能力に続く能力を高め、パーソナライズされた会話エージェントへの道を開くと考えています。
コードとデータセットはhttps://prefeval.github.io/で入手できます。
要約(オリジナル)
Large Language Models (LLMs) are increasingly used as chatbots, yet their ability to personalize responses to user preferences remains limited. We introduce PrefEval, a benchmark for evaluating LLMs’ ability to infer, memorize and adhere to user preferences in a long-context conversational setting. PrefEval comprises 3,000 manually curated user preference and query pairs spanning 20 topics. PrefEval contains user personalization or preference information in both explicit and implicit forms, and evaluates LLM performance using a generation and a classification task. With PrefEval, we evaluated the aforementioned preference following capabilities of 10 open-source and proprietary LLMs in multi-session conversations with varying context lengths up to 100k tokens. We benchmark with various prompting, iterative feedback, and retrieval-augmented generation methods. Our benchmarking effort reveals that state-of-the-art LLMs face significant challenges in proactively following users’ preferences during conversations. In particular, in zero-shot settings, preference following accuracy falls below 10% at merely 10 turns (~3k tokens) across most evaluated models. Even with advanced prompting and retrieval methods, preference following still deteriorates in long-context conversations. Furthermore, we show that fine-tuning on PrefEval significantly improves performance. We believe PrefEval serves as a valuable resource for measuring, understanding, and enhancing LLMs’ preference following abilities, paving the way for personalized conversational agents. Our code and dataset are available at https://prefeval.github.io/.
arxiv情報
著者 | Siyan Zhao,Mingyi Hong,Yang Liu,Devamanyu Hazarika,Kaixiang Lin |
発行日 | 2025-02-13 18:52:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google