Joint Prompt Optimization of Stacked LLMs using Variational Inference

要約

大規模言語モデル(LLM)は、シーケンスをシーケンス上の分布にマッピングする計算の原子単位とみなすことができる。したがって、LLMは言語ネットワークの確率的言語層と見なすことができ、学習可能なパラメータは各層の自然言語プロンプトである。このような層を2つ重ね、1つの層の出力を次の層に与えることで、深層言語ネットワーク(DLN)が得られる。我々はまず、1層の言語ネットワーク(DLN-1)に対してプロンプト最適化を効果的に実行する方法を示す。次に、2つのプロンプトを学習しなければならない2層DLN(DLN-2)に適用する拡張を示す。重要なアイデアは、第1層の出力を推論を必要とする潜在変数とみなし、プロンプトを生成分布のパラメータとして学習することである。我々はまず、複数の推論タスクと自然言語理解タスクにおいて、DLN-1の有効性を検証する。次に、DLN-2が単層よりも高い性能に到達できることを示し、ネットワーク内の各LLMがより小さく性能が低い場合でも、GPT-4に匹敵する性能に到達できる可能性を示す。

要約(オリジナル)

Large language models (LLMs) can be seen as atomic units of computation mapping sequences to a distribution over sequences. Thus, they can be seen as stochastic language layers in a language network, where the learnable parameters are the natural language prompts at each layer. By stacking two such layers and feeding the output of one layer to the next, we obtain a Deep Language Network (DLN). We first show how to effectively perform prompt optimization for a 1-Layer language network (DLN-1). Then, we present an extension that applies to 2-layer DLNs (DLN-2), where two prompts must be learned. The key idea is to consider the output of the first layer as a latent variable, which requires inference, and prompts to be learned as the parameters of the generative distribution. We first test the effectiveness of DLN-1 in multiple reasoning and natural language understanding tasks. Then, we show that DLN-2 can reach higher performance than a single layer, showing promise that we might reach comparable performance to GPT-4, even when each LLM in the network is smaller and less powerful.

arxiv情報

著者 Alessandro Sordoni,Xingdi Yuan,Marc-Alexandre Côté,Matheus Pereira,Adam Trischler,Ziang Xiao,Arian Hosseini,Friederike Niedtner,Nicolas Le Roux
発行日 2023-12-04 15:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク