Enabling Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration

要約

大規模言語モデル (LLM) は、さまざまなタスクやインスタンスにおいて補完的な強みを示しており、群衆の知恵を活用してフロンティアを開拓するアンサンブル LLM の研究を動機づけています。
既存の研究では、追加報酬モデルまたは融合モデルをトレーニングして、すべての回答候補を選択または融合することでこの目的を達成しています。
ただし、これらの方法は、トレーニングされたモデルの一般化可能性に大きな課題をもたらします。
さらに、既存の方法はテキスト応答を通信メディアとして使用し、ニューラル ネットワークの内部表現にある豊富な情報を無視しています。
したがって、異なる LLM によって出力された確率分布を平均化する、トレーニング不要のアンサンブル フレームワーク DEEPEN を提案します。
このパラダイムにおける主な課題は、異種 LLM 間の語彙の不一致であり、これが確率分布の平均化の操作を妨げます。
この課題に対処するために、DEEPEN は相対表現理論に基づいて各モデルの確率分布を確率空間からユニバース相対空間にマッピングし、集計を実行します。
次に、集計の結果が、検索ベースの逆変換を介して 1 つの LLM の確率空間にマッピングされて、生成されたトークンが決定されます。
6Bから70Bまでの様々なLLMのアンサンブル実験を行っています。
実験結果は、DEEPEN が主題の検査、推論、知識 QA を含む 6 つの一般的なベンチマークにわたって一貫した改善を達成し、私たちのアプローチの有効性を証明していることを示しています。

要約(オリジナル)

Large language models (LLMs) have shown complementary strengths in various tasks and instances, motivating the research of ensembling LLMs to push the frontier leveraging the wisdom of the crowd. Existing work achieves this objective via training the extra reward model or fusion model to select or fuse all candidate answers. However, these methods pose a great challenge to the generalizability of the trained models. Besides, existing methods use the textual responses as communication media, ignoring the rich information in the inner representations of neural networks. Therefore, we propose a training-free ensemble framework DEEPEN, averaging the probability distributions outputted by different LLMs. A key challenge in this paradigm is the vocabulary discrepancy between heterogeneous LLMs, which hinders the operation of probability distribution averaging. To address this challenge, DEEPEN maps the probability distribution of each model from the probability space to a universe relative space based on the relative representation theory, and performs aggregation. Then, the result of aggregation is mapped back to the probability space of one LLM via a search-based inverse transformation to determine the generated token. We conduct experiments on the ensemble of various LLMs of 6B to 70B. Experimental results show that DEEPEN achieves consistent improvements across six popular benchmarks involving subject examination, reasoning and knowledge-QA, proving the effectiveness of our approach.

arxiv情報

著者 Yichong Huang,Xiaocheng Feng,Baohang Li,Yang Xiang,Hui Wang,Bing Qin,Ting Liu
発行日 2024-04-19 08:52:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク