Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

要約

大規模言語モデル (LLM) は近年目覚ましいパフォーマンスを達成していますが、基本的には基礎となるトレーニング データによって制限されます。
トレーニング データを超えてモデルを改善するために、最近の研究では、LLM を使用して自律的な自己改善のための合成データを生成する方法が検討されています。
しかし、自己改善の継続的なステップは、成果が逓減する点に達する可能性があります。
この研究では、言語モデルのマルチエージェント社会に微調整を適用する、自己改善に向けた補完的なアプローチを提案します。
言語モデルのグループは、すべて同じ基本モデルから始まり、モデル間のマルチエージェント対話を通じて生成されたデータを使用して各モデルを更新することによって、独立して特殊化されます。
独立したデータセットで各モデルをトレーニングすることにより、このアプローチがどのようにモデル全体の専門化とモデルセット全体の多様化を可能にするかを示します。
その結果、私たちのシステム全体は多様な推論チェーンを保持し、単一エージェントの自己改善方法よりも多くの微調整ラウンドを経て自律的に改善することができます。
私たちは、幅広い推論タスク全体にわたるアプローチの有効性を定量的に説明します。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable performance in recent years but are fundamentally limited by the underlying training data. To improve models beyond the training data, recent works have explored how LLMs can be used to generate synthetic data for autonomous self-improvement. However, successive steps of self-improvement can reach a point of diminishing returns. In this work, we propose a complementary approach towards self-improvement where finetuning is applied to a multiagent society of language models. A group of language models, all starting from the same base model, are independently specialized by updating each one using data generated through multiagent interactions among the models. By training each model on independent sets of data, we illustrate how this approach enables specialization across models and diversification over the set of models. As a result, our overall system is able to preserve diverse reasoning chains and autonomously improve over many more rounds of fine-tuning than single-agent self-improvement methods. We quantitatively illustrate the efficacy of the approach across a wide suite of reasoning tasks.

arxiv情報

著者 Vighnesh Subramaniam,Yilun Du,Joshua B. Tenenbaum,Antonio Torralba,Shuang Li,Igor Mordatch
発行日 2025-01-10 04:35:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク