Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models

要約

大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間または AI フィードバックの使用が重要です。
密なフィードバックのアノテーションは取得して統合するのにコストがかかりますが、疎なフィードバックでは、評価 (例: 回答 A を 1 ~ 7 のスケールで採点) とランキング (例: 回答 A は回答 B よりも優れていますか?) の間で構造設計の選択肢が提示されます。
この研究では、LLM の調整と評価に対するこの設計選択の影響を分析します。
評価とランキングから推測される好みが、人間と AI のアノテーターの両方で 60% 大きく一致しないという、不一致の問題が明らかになりました。
その後の分析では、人間のアノテーターはペアごとの判断の際の精度を優先しながら、密度の高い応答をより高く評価するなど、この現象を説明するアノテーターのバイアスのさまざまな側面が特定されました。
驚いたことに、フィードバック プロトコルの選択も、整列された LLM の評価に大きな影響を与えることも観察されました。
特に、ランクベースの評価プロトコル (X/Y の応答は参照応答より優れているか?
)ただし、評価ベースの評価プロトコル(ランク X/Y の回答を 1 ~ 7 のスケールでスコア付けする)ではありません。
したがって、私たちの発見は、言語モデルの実世界の有用性を評価する方法の重大なギャップと、調整に使用されるフィードバックプロトコルへの強い依存性を明らかにします。
私たちのコードとデータは https://github.com/Hritikbansal/sparse_フィードバック で入手できます。

要約(オリジナル)

Aligning large language models (LLMs) with human values and intents critically involves the use of human or AI feedback. While dense feedback annotations are expensive to acquire and integrate, sparse feedback presents a structural design choice between ratings (e.g., score Response A on a scale of 1-7) and rankings (e.g., is Response A better than Response B?). In this work, we analyze the effect of this design choice for the alignment and evaluation of LLMs. We uncover an inconsistency problem wherein the preferences inferred from ratings and rankings significantly disagree 60% for both human and AI annotators. Our subsequent analysis identifies various facets of annotator biases that explain this phenomena, such as human annotators would rate denser responses higher while preferring accuracy during pairwise judgments. To our surprise, we also observe that the choice of feedback protocol also has a significant effect on the evaluation of aligned LLMs. In particular, we find that LLMs that leverage rankings data for alignment (say model X) are preferred over those that leverage ratings data (say model Y), with a rank-based evaluation protocol (is X/Y’s response better than reference response?) but not with a rating-based evaluation protocol (score Rank X/Y’s response on a scale of 1-7). Our findings thus shed light on critical gaps in methods for evaluating the real-world utility of language models and their strong dependence on the feedback protocol used for alignment. Our code and data are available at https://github.com/Hritikbansal/sparse_feedback.

arxiv情報

著者 Hritik Bansal,John Dang,Aditya Grover
発行日 2023-08-30 07:35:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク