Your Weak LLM is Secretly a Strong Teacher for Alignment

要約

大規模言語モデル (LLM) の機能の急成長により、これらのモデルが人間の価値観や意図に従って動作するように調整する必要性が強調されています。
既存の調整フレームワークには、人的労力や高い計算コストという形で制約が生じます。
このペーパーでは、有望な中間点を検討します。そこでは、最上位モデルよりも大幅にリソース集約度が低く、純粋に人間によるフィードバックよりも多くの自動化を提供する弱い LLM を採用します。
我々は、調整のためのフィードバックを生成する弱い LLM の能力を評価し、理解するための体系的な研究を紹介します。
私たちの経験的発見は、弱い LLM が完全に人間によるアノテーションが付けられたデータに匹敵する、あるいはそれを超えるフィードバックを提供できることを示しています。
私たちの研究は、フィードバックの有効性に対するモデル サイズの影響が最小限に抑えられていることを示し、スケーラブルで持続可能な調整戦略に光を当てています。
弱い LLM フィードバックの下でのアライメントについての理解を深めるために、一連の定性分析と定量分析を実施し、人間のフィードバックと弱い LLM フィードバックの間の品質の差異についての新しい洞察を提供します。

要約(オリジナル)

The burgeoning capabilities of large language models (LLMs) have underscored the need for alignment to ensure these models act in accordance with human values and intentions. Existing alignment frameworks present constraints either in the form of expensive human effort or high computational costs. This paper explores a promising middle ground, where we employ a weak LLM that is significantly less resource-intensive than top-tier models, yet offers more automation than purely human feedback. We present a systematic study to evaluate and understand weak LLM’s ability to generate feedback for alignment. Our empirical findings demonstrate that weak LLMs can provide feedback that rivals or even exceeds that of fully human-annotated data. Our study indicates a minimized impact of model size on feedback efficacy, shedding light on a scalable and sustainable alignment strategy. To deepen our understanding of alignment under weak LLM feedback, we conduct a series of qualitative and quantitative analyses, offering novel insights into the quality discrepancies between human feedback vs. weak LLM feedback.

arxiv情報

著者 Leitian Tao,Yixuan Li
発行日 2024-09-13 13:24:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク