Advancing LLM Reasoning Generalists with Preference Trees

要約

推論用に最適化された大規模言語モデル (LLM) スイートである Eurus を紹介します。
Mistral-7B と CodeLlama-70B から微調整された Eurus モデルは、数学、コード生成、論理的推論の問題をカバーする多様なベンチマーク セットで、オープンソース モデルの中で最先端の結果を達成します。
特に、Eurus-70B は、5 つのタスクをカバーする 12 のテストにわたる包括的なベンチマークによる推論で GPT-3.5 Turbo を上回り、LeetCode で 33.3% pa​​ss@1 精度、TheoremQA で 32.6% という 2 つの難しいベンチマークを達成し、既存のオープンソースを大幅に上回っています。
モデルの利益率は 13.3% を超えています。
Eurus の優れたパフォーマンスは、主に、複雑な推論タスク向けに特別に設計された、新しく厳選された大規模で高品質な位置合わせデータセットである UltraInteract に起因します。
UltraInteract は、教師あり微調整と好みの学習の両方に使用できます。
各命令には、(1) 統一された形式での多様な計画戦略を備えた推論チェーン、(2) 環境と批評とのマルチターン相互作用の軌跡、(3) 好みの学習を促進するためのペアごとのデータで構成される好みツリーが含まれています。

UltraInteract を使用すると、推論タスクの優先学習を徹底的に調査できます。
私たちの調査により、一部の確立された嗜好学習アルゴリズムは、一般的な会話での有効性に比べて、推論タスクにはあまり適していない可能性があることが明らかになりました。
これに触発されて、私たちは UltraInteract と連携して強力な報酬モデルにつながる新しい報酬モデリング目標を導き出しました。

要約(オリジナル)

We introduce Eurus, a suite of large language models (LLMs) optimized for reasoning. Finetuned from Mistral-7B and CodeLlama-70B, Eurus models achieve state-of-the-art results among open-source models on a diverse set of benchmarks covering mathematics, code generation, and logical reasoning problems. Notably, Eurus-70B beats GPT-3.5 Turbo in reasoning through a comprehensive benchmarking across 12 tests covering five tasks, and achieves a 33.3% pass@1 accuracy on LeetCode and 32.6% on TheoremQA, two challenging benchmarks, substantially outperforming existing open-source models by margins more than 13.3%. The strong performance of Eurus can be primarily attributed to UltraInteract, our newly-curated large-scale, high-quality alignment dataset specifically designed for complex reasoning tasks. UltraInteract can be used in both supervised fine-tuning and preference learning. For each instruction, it includes a preference tree consisting of (1) reasoning chains with diverse planning strategies in a unified format, (2) multi-turn interaction trajectories with the environment and the critique, and (3) pairwise data to facilitate preference learning. UltraInteract allows us to conduct an in-depth exploration of preference learning for reasoning tasks. Our investigation reveals that some well-established preference learning algorithms may be less suitable for reasoning tasks compared to their effectiveness in general conversations. Inspired by this, we derive a novel reward modeling objective which, together with UltraInteract, leads to a strong reward model.

arxiv情報

著者 Lifan Yuan,Ganqu Cui,Hanbin Wang,Ning Ding,Xingyao Wang,Jia Deng,Boji Shan,Huimin Chen,Ruobing Xie,Yankai Lin,Zhenghao Liu,Bowen Zhou,Hao Peng,Zhiyuan Liu,Maosong Sun
発行日 2024-04-02 16:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク