Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration

要約

大規模言語モデル (LLM) は、さまざまなタスクにおいて補完的な強みを発揮し、LLM アンサンブルの研究を動機付けます。
ただし、既存の研究は、追加報酬モデルまたは融合モデルをトレーニングして、すべての候補回答を選択または結合することに焦点を当てており、目に見えないデータ分布の一般化に大きな課題をもたらしています。
さらに、従来の方法は通信メディアとしてテキスト応答を使用し、内部表現内の貴重な情報を無視していました。
この研究では、各復号化ステップで異なる LLM によって生成される有益な確率分布を融合する、トレーニング不要のアンサンブル フレームワーク DeePEn を提案します。
残念ながら、異種 LLM 間の語彙の不一致により、トークンの不整合により分布の平均化が直接不可能になります。
この課題に対処するために、DeePEn は、相対表現理論に基づいて、各モデルの確率分布を独自の確率空間から普遍的な相対空間にマッピングし、集約を実行します。
次に、次のトークンを決定するために、集計結果をアンサンブル LLM (メイン モデル) の 1 つの確率空間に変換する検索ベースの逆変換を考案します。
私たちは、さまざまな数の LLM のアンサンブル、さまざまなアーキテクチャを持つ LLM のアンサンブル、LLM とスペシャリスト モデルの間のアンサンブルについて広範な実験を実施します。
実験結果は、(i) DeePEn は被験者の検査、推論、知識をカバーする 6 つのベンチマークにわたって一貫した改善を達成していること、(ii) パフォーマンスの高い専門家モデルは、分散融合を通じて効果の低い LLM の恩恵を受けることができること、(iii) DeePEn は補完的な機能を備えていることを示しています。
投票などの他のアンサンブル方法との強み。

要約(オリジナル)

Large language models (LLMs) exhibit complementary strengths in various tasks, motivating the research of LLM ensembling. However, existing work focuses on training an extra reward model or fusion model to select or combine all candidate answers, posing a great challenge to the generalization on unseen data distributions. Besides, prior methods use textual responses as communication media, ignoring the valuable information in the internal representations. In this work, we propose a training-free ensemble framework DeePEn, fusing the informative probability distributions yielded by different LLMs at each decoding step. Unfortunately, the vocabulary discrepancy between heterogeneous LLMs directly makes averaging the distributions unfeasible due to the token misalignment. To address this challenge, DeePEn maps the probability distribution of each model from its own probability space to a universal relative space based on the relative representation theory, and performs aggregation. Next, we devise a search-based inverse transformation to transform the aggregated result back to the probability space of one of the ensembling LLMs (main model), in order to determine the next token. We conduct extensive experiments on ensembles of different number of LLMs, ensembles of LLMs with different architectures, and ensembles between the LLM and the specialist model. Experimental results show that (i) DeePEn achieves consistent improvements across six benchmarks covering subject examination, reasoning, and knowledge, (ii) a well-performing specialist model can benefit from a less effective LLM through distribution fusion, and (iii) DeePEn has complementary strengths with other ensemble methods such as voting.

arxiv情報

著者 Yichong Huang,Xiaocheng Feng,Baohang Li,Yang Xiang,Hui Wang,Bing Qin,Ting Liu
発行日 2024-05-30 16:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク