CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses

要約

大規模言語モデル (LLM) の急速な進歩により、非倫理的なコンテンツが生成されるなどの潜在的なリスクが生じます。
LLM の値を評価することは、その不整合を明らかにするのに役立ちますが、生成された応答に反映された値を識別するには、参照フリーの評価器 (たとえば、微調整された LLM や GPT-4 などのソースに近いもの) に依存します。
それにもかかわらず、これらの評価者は、オープンエンド型の価値評価において 2 つの課題に直面しています。それは、評価者自身の偏見に抗して最小限の注釈で人間の価値定義の変化に対応する必要があること (適応性)、および変化する価値表現とシナリオを堅牢に検出すること (一般化可能性) です。
これらの課題に対処するために、我々は 2 つの相補的な LLM を統合する新しいフレームワークである CLAVE を導入します。1 つは広範な知識と汎用性を活用して少数の人間のラベルから高レベルの価値概念を抽出するための大きな LLM であり、より小さな LLM はそのようなものに合わせて微調整されています。
人間の価値観の理解とよりよく調和する概念。
このデュアルモデルのアプローチにより、値タイプごとに人によるラベル付けされたサンプルが 100 未満を使用して、あらゆる値システムでのキャリブレーションが可能になります。
次に、さまざまなドメインにわたる 13,000 個以上の (テキスト、値、ラベル) タプルで構成され、3 つの主要な値システムをカバーする包括的なデータセットである ValEval を紹介します。
私たちは 12 社以上の人気のある LLM 評価者の能力をベンチマークし、その長所と短所を分析します。
私たちの調査結果は、微調整された小さなモデルとプロンプトベースの大きなモデルを組み合わせることが、価値評価において優れたバランスとして機能することを明らかにしました。

要約(オリジナル)

The rapid progress in Large Language Models (LLMs) poses potential risks such as generating unethical content. Assessing LLMs’ values can help expose their misalignment, but relies on reference-free evaluators, e.g., fine-tuned LLMs or close-source ones like GPT-4, to identify values reflected in generated responses. Nevertheless, these evaluators face two challenges in open-ended value evaluation: they should align with changing human value definitions with minimal annotation, against their own bias (adaptability), and detect varying value expressions and scenarios robustly (generalizability). To handle these challenges, we introduce CLAVE, a novel framework which integrates two complementary LLMs, a large one to extract high-level value concepts from a few human labels, leveraging its extensive knowledge and generalizability, and a smaller one fine-tuned on such concepts to better align with human value understanding. This dual-model approach enables calibration with any value systems using <100 human-labeled samples per value type. Then we present ValEval, a comprehensive dataset comprising 13k+ (text,value,label) tuples across diverse domains, covering three major value systems. We benchmark the capabilities of 12+ popular LLM evaluators and analyze their strengths and weaknesses. Our findings reveal that combining fine-tuned small models and prompt-based large ones serves as a superior balance in value evaluation.

arxiv情報

著者 Jing Yao,Xiaoyuan Yi,Xing Xie
発行日 2024-07-15 13:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク