From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning

要約

データとモデルのサイズをスケーリングすることは、大規模な言語モデルのパフォーマンスを向上させるのに効果的であることが証明されています。
トレーニング時間のスケーリングに加えて、最近の研究では、テスト時間の計算リソースを増やすことでパフォーマンスをさらに向上できることが明らかになりました。
この研究では、教師あり微調整パラダイムである集約微調整 (AFT) を導入します。モデルは、提案と呼ばれる複数のドラフト応答を、集約と呼ばれる単一の洗練された回答に合成することを学習します。
推論時には、提案と集約の戦略により、提案の生成と集約が繰り返し行われるため、パフォーマンスがさらに向上します。
ベンチマーク データセットの経験的評価では、AFT でトレーニングされたモデルが標準の SFT を大幅に上回るパフォーマンスを示しています。
特に、わずか 64k データの Llama3.1-8B-Base から微調整された AFT モデルは、AlpacaEval 2 で 41.3% の LC 勝率を達成し、Llama3.1-405B-Instruct や GPT4 などの大幅に大規模な LLM を上回っています。
逐次改良と並列サンプリングを組み合わせることで、提案および集約フレームワークは、柔軟な方法で推論時間の計算をスケールします。
全体として、これらの調査結果は、AFT を、データ量やモデル サイズの増加に頼ることなく LLM の追加機能を解放する有望なアプローチとして位置づけています。

要約(オリジナル)

Scaling data and model size has been proven effective for boosting the performance of large language models. In addition to training-time scaling, recent studies have revealed that increasing test-time computational resources can further improve performance. In this work, we introduce Aggregation Fine-Tuning (AFT), a supervised finetuning paradigm where the model learns to synthesize multiple draft responses, referred to as proposals, into a single, refined answer, termed aggregation. At inference time, a propose-and-aggregate strategy further boosts performance by iteratively generating proposals and aggregating them. Empirical evaluations on benchmark datasets show that AFT-trained models substantially outperform standard SFT. Notably, an AFT model, fine-tuned from Llama3.1-8B-Base with only 64k data, achieves a 41.3% LC win rate on AlpacaEval 2, surpassing significantly larger LLMs such as Llama3.1-405B-Instruct and GPT4. By combining sequential refinement and parallel sampling, the propose-and-aggregate framework scales inference-time computation in a flexible manner. Overall, These findings position AFT as a promising approach to unlocking additional capabilities of LLMs without resorting to increasing data volume or model size.

arxiv情報

著者 Yafu Li,Zhilin Wang,Tingchen Fu,Ganqu Cui,Sen Yang,Yu Cheng
発行日 2025-01-21 04:11:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク