Weak-to-Strong Reasoning

要約

大規模言語モデル (LLM) が人間レベルの能力を超えると、これらのモデルに対して本格的かつ正確な監視を提供することがますます困難になります。
能力の低いモデルを利用して、より強力なモデルの潜在的な能力を引き出す、弱から強への学習は、この文脈では価値があることが証明されています。
ただし、複雑な推論タスクに対するこのアプローチの有効性はまだテストされていません。
さらに、弱から強への設定の下で推論タスクに取り組むことには、弱いスーパーバイザーの間違いを含む盲目的な模倣を避けるための効率的な方法が現在不足しています。
このペーパーでは、より高度なモデルや人間が注釈を付けたデータからの入力を必要とせずに、強力なモデルが自律的にトレーニング データを改良できるようにする漸進的学習フレームワークを紹介します。
このフレームワークは、選択された小さいながらも高品質のデータセットに対する教師あり微調整から始まり、その後、強力なモデル自体によって特定された対照的なサンプルに対する優先順位の最適化が続きます。
GSM8K および MATH データセットに関する広範な実験により、私たちの方法が 3 つの別々の弱いモデルを使用して Llama2-70b の推論能力を大幅に強化することが実証されました。
この方法は、非常に困難なOlympicArenaデータセット上でLlama3-8b-instructがLlama3-70bを効果的に監督する、将来を見据えた実験設定でさらに検証されています。
この研究により、AI の推論能力を強化するための、よりスケーラブルで洗練された戦略への道が開かれます。
関連するコードとリソースはすべて \url{https://github.com/GAIR-NLP/weak-to-strong-reasoning} で入手できます。

要約(オリジナル)

When large language models (LLMs) exceed human-level capabilities, it becomes increasingly challenging to provide full-scale and accurate supervisions for these models. Weak-to-strong learning, which leverages a less capable model to unlock the latent abilities of a stronger model, proves valuable in this context. Yet, the efficacy of this approach for complex reasoning tasks is still untested. Furthermore, tackling reasoning tasks under the weak-to-strong setting currently lacks efficient methods to avoid blindly imitating the weak supervisor including its errors. In this paper, we introduce a progressive learning framework that enables the strong model to autonomously refine its training data, without requiring input from either a more advanced model or human-annotated data. This framework begins with supervised fine-tuning on a selective small but high-quality dataset, followed by preference optimization on contrastive samples identified by the strong model itself. Extensive experiments on the GSM8K and MATH datasets demonstrate that our method significantly enhances the reasoning capabilities of Llama2-70b using three separate weak models. This method is further validated in a forward-looking experimental setup, where Llama3-8b-instruct effectively supervises Llama3-70b on the highly challenging OlympicArena dataset. This work paves the way for a more scalable and sophisticated strategy to enhance AI reasoning powers. All relevant code and resources are available in \url{https://github.com/GAIR-NLP/weak-to-strong-reasoning}.

arxiv情報

著者 Yuqing Yang,Yan Ma,Pengfei Liu
発行日 2024-07-18 16:25:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク