要約
生成大規模言語モデル (LLM) のアンサンブルは、さまざまな LLM の長所を統合して、個々のモデルの制限を補うことができます。
しかし、最近の研究は、複数の LLM からの完全な応答を結合する追加の融合モデルのトレーニングに焦点を当てており、より高品質の応答を生成するための協調的な潜在能力を活用できていません。
さらに、追加の融合モデルは特殊なデータセットでトレーニングされるため、これらの手法はオンライン ユーザーからのオープン ドメイン クエリに一般化するのに苦労します。
本稿では、LLM 間の連携により次のセグメントを繰り返し生成し、融合結果を出力する新しいアンサンブル フレームワーク SpecFuse を提案します。
これは、推論コンポーネントと検証コンポーネントを周期的に実行することで実現されます。
各ラウンドで、推論コンポーネントは各ベース LLM を呼び出して候補セグメントを並行して生成し、検証コンポーネントはこれらの LLM を再度呼び出してセグメントのランキングを予測します。
次に、最上位のセグメントがすべての LLM にブロードキャストされ、次のラウンドでより高品質のセグメントを生成するよう促されます。
このアプローチにより、ベース LLM をトレーニングや適応なしでプラグ アンド プレイにすることもできるため、一般化の制限が回避されます。
さらに、計算リソースを節約するために、各クエリ応答中に前のラウンドでパフォーマンスが悪いモデルを動的に除外するモデル終了メカニズムを提案します。
このようにして、全体的なパフォーマンスを維持しながら、モデル呼び出しの数を効果的に削減します。
要約(オリジナル)
Ensembles of generative large language models (LLMs) can integrate the strengths of different LLMs to compensate for the limitations of individual models. However, recent work has focused on training an additional fusion model to combine complete responses from multiple LLMs, failing to tap into their collaborative potential to generate higher-quality responses. Moreover, as the additional fusion model is trained on a specialized dataset, these methods struggle with generalizing to open-domain queries from online users. In this paper, we propose SpecFuse, a novel ensemble framework that outputs the fused result by iteratively producing the next segment through collaboration among LLMs. This is achieved through cyclic execution of its inference and verification components. In each round, the inference component invokes each base LLM to generate candidate segments in parallel, and the verify component calls these LLMs again to predict the ranking of the segments. The top-ranked segment is then broadcast to all LLMs, encouraging them to generate higher-quality segments in the next round. This approach also allows the base LLMs to be plug-and-play, without any training or adaptation, avoiding generalization limitations. Furthermore, to conserve computational resources, we propose a model exit mechanism that dynamically excludes models exhibiting poor performance in previous rounds during each query response. In this way, it effectively reduces the number of model calls while maintaining overall performance.
arxiv情報
著者 | Bo Lv,Chen Tang,Yanan Zhang,Xin Liu,Yue Yu,Ping Luo |
発行日 | 2024-12-10 10:27:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google