A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis

要約

データの統合と蒸留は、小言語モデルを強化するための有望な戦略ですが、現在のアプローチは、高い計算コスト、環境非効率性、およびモノリシックアーキテクチャから継承された潜在的なバイアスに苦しむ大きな言語モデル(LLM)に大きく依存しています。
対照的に、より小さなLLMはよりアクセスしやすく持続可能ですが、それらの個々の機能は、高品質で多様で信頼性の高いデータを生成するのに不足していることがよくあります。
共同の人間のプロセス(ピアレビューなど)に触発されて、私たちは、単一のLLMによって通常達成される小さなLLM全体にわたって特殊な役割を反復的な洗練と品質管理に集約する複数の小さなLLMSフレームワーク、GRAを提案します。
この共同フレームワークでは、複数の小さなLLMSが、異なるロールズジェネレーター、レビュアー、および裁定者を想定しており、ピアレビューにインスパイアされたデータシンセシスパイプラインをシミュレートします。
ジェネレーターは初期のデータサンプルを提案し、レビュアーは品質と多様性を批判し、裁定者は競合を解決して出力を完成させます。
合成プロセスを特殊なサブタスクに分解することにより、共同の小型LLMは、LLMベースの大規模な蒸留とデータレベルのパリティを達成できます。
複数のベンチマークにわたる実験を通じて、GRAが制作したデータが、QWEN-2.5-72B-Instructなどの単一の大LLM出力の品質に一致するか、それを超えることを示します。
私たちの結果は、高品質のデータ統合のためのモノリシック大規模モデルの必要性に挑戦し、代わりに小規模なエージェントの戦略的調整を提唱しています。
データセット、モデル、およびコードは、https://github.com/gx-xingao/graで公開されています。

要約(オリジナル)

While data synthesis and distillation are promising strategies to enhance small language models, current approaches heavily rely on Large Language Models (LLMs), which suffer from high computational costs, environmental inefficiency, and potential biases inherited from monolithic architectures. In contrast, smaller LLMs are more accessible and sustainable, but their individual capabilities often fall short in generating high-quality, diverse, and reliable data. Inspired by collaborative human processes (e.g., peer review), we propose a multiple small LLMs involved framework, GRA, that aggregates specialized roles across small LLMs to iterative refinement and quality control typically achieved by a single large LLM. In this collaborative framework, multiple small LLMs assume distinct roles-Generator, Reviewer, and Adjudicator-to simulate a peer-review-inspired data synthesis pipeline. The Generator proposes initial data samples, the Reviewer critiques their quality and diversity, and the Adjudicator resolves conflicts to finalize the output. By decomposing the synthesis process into specialized sub-tasks, collaborative small LLMs can achieve data-level parity with large LLM-based distillation. Through experiments across multiple benchmarks, we demonstrate that GRA-produced data matches or exceeds the quality of single large LLM outputs, e.g., Qwen-2.5-72B-Instruct. Our results challenge the necessity of monolithic large models for high-quality data synthesis, advocating instead for strategic coordination of smaller agents. Our datasets, models, and code are publicly available at https://github.com/GX-XinGao/GRA.

arxiv情報

著者 Xin Gao,Qizhi Pei,Zinan Tang,Yu Li,Honglin Lin,Jiang Wu,Lijun Wu,Conghui He
発行日 2025-04-21 07:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク