LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion

要約

LLM-Blenderは、複数のオープンソースの大規模言語モデル(LLM)の多様な強みを活用することで、一貫して優れた性能を達成するように設計されたアンサンブルフレームワークである。我々のフレームワークは2つのモジュールから構成される:PairRankerとGenFuserの2つのモジュールで構成され、例によって最適なLLMが大きく異なるという観測に対処しています。PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を採用している。これは、入力テキストと候補のペアを共同でエンコードし、クロスアテンションエンコーダを使用して、より優れた方を決定する。我々の結果は、PairRankerがChatGPTベースのランキングと最も高い相関を示すことを示している。次に、GenFuserは上位にランクされた候補を統合することを目的とし、候補の長所を生かし、短所を軽減することで改善された出力を生成する。大規模な評価を容易にするために、我々はベンチマークデータセットであるMixInstructを導入する。MixInstructは、オラクル対比較を特徴とする複数命令の混合データセットである。我々のLLM-Blenderは、様々な評価指標において、個々のLLMやベースライン手法を大幅に上回り、大幅な性能差を確立した。

要約(オリジナル)

We present LLM-Blender, an ensembling framework designed to attain consistently superior performance by leveraging the diverse strengths of multiple open-source large language models (LLMs). Our framework consists of two modules: PairRanker and GenFuser, addressing the observation that optimal LLMs for different examples can significantly vary. PairRanker employs a specialized pairwise comparison method to distinguish subtle differences between candidate outputs. It jointly encodes the input text and a pair of candidates, using cross-attention encoders to determine the superior one. Our results demonstrate that PairRanker exhibits the highest correlation with ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates, generating an improved output by capitalizing on their strengths and mitigating their weaknesses. To facilitate large-scale evaluation, we introduce a benchmark dataset, MixInstruct, which is a mixture of multiple instruction datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly outperform individual LLMs and baseline methods across various metrics, establishing a substantial performance gap.

arxiv情報

著者 Dongfu Jiang,Xiang Ren,Bill Yuchen Lin
発行日 2023-06-30 21:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク