Pack of LLMs: Model Fusion at Test-Time via Perplexity Optimization

要約

複数の大規模言語モデル (LLM) からの知識を融合すると、その多様な強みを組み合わせて、特定のタスクのパフォーマンスを向上させることができます。
ただし、現在の融合アプローチは、新しい LLM に一般化しない学習ベースの融合に依存しているか、各 LLM が入力をどの程度理解しているかを考慮していません。
この研究では、テスト時に LLM 融合を研究します。これにより、推論中に任意のユーザー指定の LLM からの知識を活用できるようになります。
入力プロンプトが与えられた場合に、各 LLM の専門知識を活用するテスト時融合の効果的な方法である LLM のパック (PackLLM) を紹介します。
PackLLM は、各 LLM の重要性を決定するための最適化問題を解決することによってモデル融合を実行するため、入力プロンプトの混乱が最小限に抑えられます。
まず、単純な PackLLM-sim バリアントは、複雑さが各 LLM の専門知識を測定するための優れた指標であることを検証します。
第 2 に、PackLLM-opt バリアントは、貪欲なアルゴリズムを介して、複雑さの最小化問題を近似的に解決します。
導出された重要度の重みは、推論中に LLM を結合するために使用されます。
私たちは、合計 100 を超える LLM を使用して、さまざまなタスクの実験を行っています。
実験結果は、(i) パープレキシティは LLM 融合の信頼できる尺度である、(ii) PackLLM はテスト時の融合ベースラインより精度ポイント 1.89% 上回っている、(iii) PackLLM は新しい LLM を活用して学習ベースの融合アプローチよりもパフォーマンスを向上できることを示しています。
精度ポイントが 3.92 ~ 11.94% 向上しました。

要約(オリジナル)

Fusing knowledge from multiple Large Language Models (LLMs) can combine their diverse strengths to achieve improved performance on a given task. However, current fusion approaches either rely on learning-based fusers that do not generalize to new LLMs, or do not take into account how well each LLM understands the input. In this work, we study LLM fusion at test-time, which enables leveraging knowledge from arbitrary user-specified LLMs during inference. We introduce Pack of LLMs (PackLLM), an effective method for test-time fusion that leverages each LLM’s expertise, given an input prompt. PackLLM performs model fusion by solving an optimization problem for determining each LLM’s importance, so that perplexity over the input prompt is minimized. First, our simple PackLLM-sim variant validates that perplexity is a good indicator for measuring each LLM’s expertise. Second, our PackLLM-opt variant approximately solves the perplexity minimization problem via a greedy algorithm. The derived importance weights are used to combine the LLMs during inference. We conduct experiments with over 100 total LLMs on a diverse set of tasks. Experimental results show that (i) perplexity is a reliable measure for LLM fusion, (ii) PackLLM outperforms test-time fusion baselines by 1.89% accuracy points, and (iii) PackLLM can leverage new LLMs to improve performance over learning-based fusion approaches by 3.92-11.94% accuracy points.

arxiv情報

著者 Costas Mavromatis,Petros Karypis,George Karypis
発行日 2024-04-17 16:24:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク