FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema

要約

単純なプロンプトの品質が人間の専門家によって慎重に最適化されると、大規模言語モデル (LLM) のタスクのパフォーマンスが大幅に向上します。
ただし、専門家ベースの即時最適化には費用がかかります。
ここで、いくつかの研究では、アドホックな方法で高度な LLM (GPT-4 など) の助けを借りて、指定されたインボックス テスト モデルのタスク出力に従って単純なプロンプトを最適化する自動プロンプト最適化 (APO) を提案しています。
既存のスキームは効果的ではありますが、一般化能力が低く、プライバシーのリスクがあります。
この目的を達成するために、最初の大規模なプロンプト最適化設定データセット (POP) を収集し、オフラインのローカル LLM ベースのオプティマイザーを微調整してから、さまざまなダウンストリーム モデルを使用して公平にテストします。
私たちの方法は、モデルに依存しない方法で単純なプロンプト内のコアタスク命令部分の正確な最適化を可能にするため、命令指向型プロンプトから解放された最適化 (FIPO) と呼ばれています。
具体的には、FIPO は、単純なタスク命令、オプションの命令応答、およびオプションのグラウンド トゥルースを動的に統合して、細かく最適化されたプロンプトを生成するモジュール式 APO テンプレートを使用します。
POP データセットは、高度な LLM を使用して細心の注意を払って構築され、人間の専門家と分析モデルによる厳密な相互検証が行われます。
Tulu2 モデルと多様な微調整戦略によるデータからの洞察を活用して、5 つの公開ベンチマークと 6 つのテスト モデルにわたって FIPO フレームワークの有効性を検証します。
ここでコードとデータを確認してください: https://github.com/LuJunru/FIPO_Project。

要約(オリジナル)

When the quality of naive prompts is carefully optimized by human experts, the task performance of large language models (LLMs) can be significantly improved. However, expert-based prompt optimizations are expensive. Herein, some works have proposed Automatic Prompt Optimization (APO), to optimize naive prompts according to task outputs of given in-box testing models, with the help of advanced LLMs (e.g., GPT-4) in an ad-hoc way. Although effective, existing schemes suffer from poor generalization ability and privacy risk. To this end, we collect the first large-scale Prompt Optimization Preference dataset (POP), fine-tune offline local LLM-based optimizers, then fairly test with various downstream models. Our method allows accurate optimization of the core task instruction part within the naive prompt in a model-agnostic manner, and thus is named Free-from Instruction-oriented Prompt Optimization (FIPO). In specific, FIPO uses a modular APO template that dynamically integrate the naive task instruction, optional instruction responses, and optional ground truth to produce finely optimized prompts. The POP dataset is meticulously constructed using advanced LLMs, undergoing rigorous cross-validation by human experts and analytical models. Leveraging insights from the data with Tulu2 models and diverse fine-tuning strategies, we validate the efficacy of FIPO framework across five public benchmarks and six testing models. Check codes and data here: https://github.com/LuJunru/FIPO_Project.

arxiv情報

著者 Junru Lu,Siyu An,Min Zhang,Yulan He,Di Yin,Xing Sun
発行日 2024-08-14 11:47:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク