ACING: Actor-Critic for Instruction Learning in Black-Box Large Language Models

要約

タスクを解決する際の大規模言語モデル (LLM) の有効性は、指示の品質に大きく依存し、多くの場合、多大な人間の努力による微調整が必​​要になります。
これは、自動命令最適化の必要性を強調しています。
ただし、この最適化は、モデルのパラメーターと勾配にアクセスできないブラックボックス LLM を扱う場合に特に困難です。
我々は、連続バンディット設定として知られる、ステートレスな連続アクションの強化学習 (RL) 問題として枠組み化された、タスク固有のプロンプト最適化アプローチである ACING を提案します。
ACING は、アクター批評家ベースの手法を活用して、微分不可能な報酬シグナルから学習してプロンプトを最適化します。
30 の命令ベースのタスクで ChatGPT のプロンプトを最適化することで、ACING を検証します。
ACING は常にベースライン手法を上回り、中央値スコアの 10 パーセント向上を達成しました。
さらに、ACING は回復するだけでなく、人間が作成した専門家の指示を上回り、人間のベンチマークに対して最大 39 パーセントの改善を達成します。

要約(オリジナル)

The effectiveness of Large Language Models (LLMs) in solving tasks vastly depends on the quality of the instructions, which often require fine-tuning through extensive human effort. This highlights the need for automated instruction optimization; however, this optimization is particularly challenging when dealing with black-box LLMs, where model parameters and gradients remain inaccessible. We propose ACING, a task-specific prompt optimization approach framed as a stateless continuous-action Reinforcement Learning (RL) problem, known as the continuum bandit setting. ACING leverages an actor-critic-based method to optimize prompts, learning from non-differentiable reward signals. We validate ACING by optimizing prompts for ChatGPT on 30 instruction-based tasks. ACING consistently outperforms baseline methods, achieving a median score improvement of 10 percentage points. Furthermore, ACING not only recovers but also surpasses human-crafted expert instructions, achieving up to a 39 percentage point improvement against human benchmarks.

arxiv情報

著者 Salma Kharrat,Fares Fourati,Marco Canini
発行日 2024-11-19 18:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SY, eess.SY, math.OC パーマリンク