Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers

要約

大規模言語モデル (LLM) は、顕著な命令追従機能を示し、さまざまなアプリケーションで印象的なパフォーマンスを達成しました。
ただし、LLM のパフォーマンスは、LLM に与えられた指示に大きく依存しており、通常、LLM は人間の多大な労力をかけて手動で調整されます。
最近の研究では、クエリ効率の高いベイジアン最適化 (BO) アルゴリズムを使用して、ブラックボックス LLM に与えられる命令を自動的に最適化しています。
ただし、命令を LLM のパフォーマンスにマッピングする関数など、高度に洗練された (たとえば、高次元の) 目的関数を最適化する場合、BO は通常不十分です。
これは主に、目的関数をモデル化するための代理として BO によって使用されるガウス プロセス (GP) の表現力が限られていることによるものです。
一方、ニューラル ネットワーク (NN)、特に事前トレーニングされたトランスフォーマーは強力な表現力を備え、非常に複雑な機能をモデル化できることが繰り返し示されています。
そこで、BO の GP を NN サロゲートに置き換えるニューラル バンディット アルゴリズムを採用して、ブラックボックス LLM の命令を最適化します。
さらに重要なことは、ニューラル バンディット アルゴリズムを使用すると、NN サロゲートを、事前トレーニングされたトランスフォーマー (つまり、オープンソース LLM) によって学習された隠れた表現と自然に結合できるため、パフォーマンスが大幅に向上します。
これらは、ニューラルバンディットとトランスフォーマー結合 (INSTINCT) アルゴリズムを使用した INSTruction 最適化を提案する動機となっています。
私たちは ChatGPT の命令の最適化を実行し、広範な実験を使用して、INSTINCT がさまざまなタスク (さまざまな命令誘導タスクやゼロショットの思考連鎖命令を改善するタスクなど) で一貫してベースラインを上回るパフォーマンスを示すことを示しています。
私たちのコードは https://github.com/xqlin98/INSTINCT で入手できます。

要約(オリジナル)

Large language models (LLMs) have shown remarkable instruction-following capabilities and achieved impressive performances in various applications. However, the performances of LLMs depend heavily on the instructions given to them, which are typically manually tuned with substantial human efforts. Recent work has used the query-efficient Bayesian optimization (BO) algorithm to automatically optimize the instructions given to black-box LLMs. However, BO usually falls short when optimizing highly sophisticated (e.g., high-dimensional) objective functions, such as the functions mapping an instruction to the performance of an LLM. This is mainly due to the limited expressive power of the Gaussian process (GP) which is used by BO as a surrogate to model the objective function. Meanwhile, it has been repeatedly shown that neural networks (NNs), especially pre-trained transformers, possess strong expressive power and can model highly complex functions. So, we adopt a neural bandit algorithm which replaces the GP in BO by an NN surrogate to optimize instructions for black-box LLMs. More importantly, the neural bandit algorithm allows us to naturally couple the NN surrogate with the hidden representation learned by a pre-trained transformer (i.e., an open-source LLM), which significantly boosts its performance. These motivate us to propose our INSTruction optimization usIng Neural bandits Coupled with Transformers (INSTINCT) algorithm. We perform instruction optimization for ChatGPT and use extensive experiments to show that INSTINCT consistently outperforms baselines in different tasks, e.g., various instruction induction tasks and the task of improving zero-shot chain-of-thought instructions. Our code is available at https://github.com/xqlin98/INSTINCT.

arxiv情報

著者 Xiaoqiang Lin,Zhaoxuan Wu,Zhongxiang Dai,Wenyang Hu,Yao Shu,See-Kiong Ng,Patrick Jaillet,Bryan Kian Hsiang Low
発行日 2024-05-31 16:27:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク