A transfer learning framework for weak-to-strong generalization

要約

最新の大規模な言語モデル(LLM)アラインメント手法は人間のフィードバックに依存していますが、これらの手法がAligned LLMの機能を根本的に制限するかどうかは不明です。
特に、能力を低下させることなく(より弱い)人間のフィードバックを使用して、LLMを超人的能力に(より強力な)LLMを整列させることができるかどうかは不明です。
これは、弱い(より能力の低い)モデルからのフィードバックを使用して、より強力な(より能力のある)モデルをトレーニングするために、弱くて強力な一般化問題の例です。
事前に訓練されたLLMSから潜在的な知識を引き出すことにより、弱くて強い一般化が可能であることを証明します。
特に、弱いモデルから弱いモデルから強力な訓練を受けたモデルに潜在的な概念を転送したい転送学習問題として、弱い〜強力な一般化問題をキャストします。
素朴な微調整アプローチは基本的な制限に苦しんでいることを証明しますが、問題構造によって提案された代替の改良ベースのアプローチは、微調整の限界を克服することを証明します。
最後に、複数のLLMアライメントタスクにおける洗練アプローチの実用的な適用性を示します。

要約(オリジナル)

Modern large language model (LLM) alignment techniques rely on human feedback, but it is unclear whether these techniques fundamentally limit the capabilities of aligned LLMs. In particular, it is unknown if it is possible to align (stronger) LLMs with superhuman capabilities with (weaker) human feedback without degrading their capabilities. This is an instance of the weak-to-strong generalization problem: using feedback from a weaker (less capable) model to train a stronger (more capable) model. We prove that weak-to-strong generalization is possible by eliciting latent knowledge from pre-trained LLMs. In particular, we cast the weak-to-strong generalization problem as a transfer learning problem in which we wish to transfer a latent concept prior from a weak model to a strong pre-trained model. We prove that a naive fine-tuning approach suffers from fundamental limitations, but an alternative refinement-based approach suggested by the problem structure provably overcomes the limitations of fine-tuning. Finally, we demonstrate the practical applicability of the refinement approach in multiple LLM alignment tasks.

arxiv情報

著者 Seamus Somerstep,Felipe Maia Polo,Moulinath Banerjee,Ya’acov Ritov,Mikhail Yurochkin,Yuekai Sun
発行日 2025-03-14 17:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク