Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning

要約

大規模言語モデル (LLM) が進歩し続けるにつれて、人間の価値観との整合性を確保することがますます重要になっています。
従来の位置合わせ方法は、モデルを微調整するために人間のフィードバックに大きく依存しています。
出力が人間の理解を超える可能性のある超人的モデルの出現により、人間の判断を使用してこれらのモデルを評価し調整することは、重大な課題を引き起こします。
この課題に対処するために、最近の研究では弱いスーパーバイザーを使用して、より強力なモデルから知識を引き出しています。
しかし、既存の研究における経験的な設定と調整という真の目標の間には、重要な相違点があります。
我々は、既存の研究が実際のアラインメント関連のタスク(安全性など)ではなく、類似の設定(つまりバイナリ分類)での弱から強への生成現象を調査していることに注目します。
この論文では、弱から強への生成を実際の調整のコンテキストに拡張することで、このギャップを埋めます。
私たちは、安全性、毒性、法的推論という 3 つの複雑な調整タスクにおいて、弱から強への生成という広範な現象を経験的に実証します。
さらに、モデルの結果の品質を向上させるために、アライメントのパフォーマンスを向上させるための効率的な戦略を探索します。
最後に、特定のアライメントタスクに関する課題と潜在的な解決策を要約および分析します。これにより、弱から強への一般化というテーマに関する研究の進歩が促進されることを期待しています。
私たちのコードは https://github.com/yeruimeng/WTS.git でリリースされています。

要約(オリジナル)

As large language models (LLMs) continue to advance, ensuring their alignment with human values becomes increasingly critical. Traditional alignment methods heavily rely on human feedback to fine-tune models. With the emergence of superhuman models whose outputs may surpass human understanding, evaluating and aligning these models using human judgments poses significant challenges. To address the challenges, recent works use weak supervisors to elicit knowledge from much stronger models. However, there are important disanalogies between the empirical setup in the existing works and the genuine goal of alignment. We remark that existing works investigate the phenomenon of weak-to-strong generation in analogous setup (i.e., binary classification), rather than practical alignment-relevant tasks (e.g., safety). In this paper, we bridge this gap by extending weak-to-strong generation to the context of practical alignment. We empirically demonstrate the widespread phenomenon of weak-to-strong generation in three complicated alignment tasks: safety, toxicity, and legal reasoning}. Furthermore, we explore efficient strategies for improving alignment performance to enhance the quality of model outcomes. Lastly, we summarize and analyze the challenges and potential solutions in regard to specific alignment tasks, which we hope to catalyze the research progress on the topic of weak-to-strong generalization. Our code is released at https://github.com/yeruimeng/WTS.git.

arxiv情報

著者 Ruimeng Ye,Yang Xiao,Bo Hui
発行日 2024-10-16 14:40:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク