要約
私たちは、トークン レベルで世代をインターリーブすることによって、複数の大規模言語モデル (LLM) に連携するように教える方法を提案します。
どの LLM が次のトークンを潜在変数として生成するかの決定をモデル化します。
潜在変数モデルに基づいてトレーニング セットの限界尤度を最適化することで、基本 LLM は、いつそれ自体を生成するか、いつ「アシスタント」言語モデルの 1 つを呼び出して生成するかを、すべて直接の監視なしで自動的に学習します。
デコード中のトークンレベルのコラボレーションにより、当面の特定のタスクに合わせた方法で各モデルの専門知識を融合できます。
私たちの協調的デコードは、ゼネラリストのベース LLM がドメインのエキスパート モデルを呼び出す方法を学習するクロスドメイン設定で特に役立ちます。
指示に従うタスク、ドメイン固有の QA タスク、および推論タスクに関して、共同システムのパフォーマンスが個々のモデルのパフォーマンスを上回ることを示します。
学習された潜在的な意思決定の定性分析を通じて、私たちの方法でトレーニングされたモデルが、テンプレート充填などのいくつかの興味深いコラボレーション パターンを示すことを示します。
私たちのコードは https://github.com/clinicalml/co-llm で入手できます。
要約(オリジナル)
We propose a method to teach multiple large language models (LLM) to collaborate by interleaving their generations at the token level. We model the decision of which LLM generates the next token as a latent variable. By optimizing the marginal likelihood of a training set under our latent variable model, the base LLM automatically learns when to generate itself and when to call on one of the “assistant” language models to generate, all without direct supervision. Token-level collaboration during decoding allows for a fusion of each model’s expertise in a manner tailored to the specific task at hand. Our collaborative decoding is especially useful in cross-domain settings where a generalist base LLM learns to invoke domain expert models. On instruction-following, domain-specific QA, and reasoning tasks, we show that the performance of the joint system exceeds that of the individual models. Through qualitative analysis of the learned latent decisions, we show models trained with our method exhibit several interesting collaboration patterns, e.g., template-filling. Our code is available at https://github.com/clinicalml/co-llm.
arxiv情報
著者 | Shannon Zejiang Shen,Hunter Lang,Bailin Wang,Yoon Kim,David Sontag |
発行日 | 2024-08-27 08:31:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google