要約
ペルソナ主導のロールプレイング (PRP) は、すべてのペルソナのステートメントに忠実に従うことで、ユーザーのクエリに応答できる AI キャラクターを構築することを目的としています。
残念ながら、PRP の既存の忠実度基準は、明確な定義や定式化がなく、粗粒度の LLM ベースのスコアリングに限定されています。
この論文では、PRP の忠実度をきめ細かく説明可能な基準として定量化するための先駆的な研究を紹介します。これは、最適化のための信頼できる基準としても機能します。
私たちの基準では、まずクエリとステートメントの関連性を特定することによって、ペルソナ ステートメントを能動的制約と受動的制約に区別します。
次に、AI キャラクターの応答は (a) 能動的 (関連性のある) 制約によって伴うものであり、(b) 受動的 (無関係な) 制約によって矛盾してはならないという原則に従って、すべての制約を組み込みます。
この原則を数学的に変換して、関連性スコアで重み付けされた自然言語推論 (NLI) スコアの制約ごとの合計である新しいアクティブ-パッシブ制約 (APC) スコアに変換します。
実際には、効率を高めるために GPT-4 から小さな識別子を記号的に抽出することによって APC スコアリング システムを構築します。
数十のステートメントを含むペルソナの例に基づいて人間の評価に対して APC スコアの品質を検証したところ、結果は高い相関関係を示しました。
さらに、より優れた AI キャラクターを実現するための直接嗜好最適化 (DPO) における報酬システムとしてこれを活用しています。
私たちの実験は、既存の PRP 技術間の詳細かつ説明可能な比較を提供し、その利点と限界を明らかにします。
さらに、APC ベースの DPO は、すべての制約を遵守するための最も競争力のある技術の 1 つであり、他の技術とうまく組み込むことができることがわかりました。
次に、実験の規模を実在の人物に拡張し、数百の発言を行い、一貫した結論に達します。
要約(オリジナル)
Persona-driven role-playing (PRP) aims to build AI characters that can respond to user queries by faithfully sticking with all persona statements. Unfortunately, existing faithfulness criteria for PRP are limited to coarse-grained LLM-based scoring without a clear definition or formulation. This paper presents a pioneering exploration to quantify PRP faithfulness as a fine-grained and explainable criterion, which also serves as a reliable reference for optimization. Our criterion first discriminates persona statements into active and passive constraints by identifying the query-statement relevance. Then, we incorporate all constraints following the principle that the AI character’s response should be (a) entailed by active (relevant) constraints and (b) not contradicted by passive (irrelevant) constraints. We translate this principle mathematically into a novel Active-Passive-Constraint (APC) score, a constraint-wise sum of natural language inference (NLI) scores weighted by relevance scores. In practice, we build the APC scoring system by symbolically distilling small discriminators from GPT-4 for efficiency. We validate the quality of the APC score against human evaluation based on example personas with tens of statements, and the results show a high correlation. We further leverage it as a reward system in direct preference optimization (DPO) for better AI characters. Our experiments offer a fine-grained and explainable comparison between existing PRP techniques, revealing their advantages and limitations. We further find APC-based DPO to be one of the most competitive techniques for sticking with all constraints and can be well incorporated with other techniques. We then extend the scale of the experiments to real persons with hundreds of statements and reach a consistent conclusion.
arxiv情報
著者 | Letian Peng,Jingbo Shang |
発行日 | 2024-05-13 13:21:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google