CriSPO: Multi-Aspect Critique-Suggestion-guided Automatic Prompt Optimization for Text Generation

要約

既存の自動プロンプトエンジニアリング手法は通常、識別タスク向けに設計されており、単一の側面を反映する単一のメトリックからの限られたフィードバックで新しいタスクのプロンプトが繰り返し改良されます。
ただし、これらのアプローチは、プロンプトを改善し、生成されたテキストの複数の側面を最適化するために、単一の数値指標を超えたより微妙なガイダンスを必要とする生成タスクには最適とは言えません。
これらの課題に対処するために、私たちは、新しい複数の側面からなる批判提案に基づく自動プロンプト最適化 (CriSPO) アプローチを提案します。
CriSPO は、そのコアコンポーネントとして批評提案モジュールを導入しています。
このモジュールは自発的に側面を発見し、生成されたテキストと参照テキストをこれらの側面にわたって比較し、迅速な修正のための具体的な提案を提供します。
これらの明確な批判と実用的な提案は、受容的なオプティマイザーモジュールがより実質的な変更を加え、より広範囲でより効果的な検索領域を探索するように導きます。
マルチメトリックの最適化により CriSPO をさらに改善するために、複数のメトリックにわたってタスクプロンプトのパフォーマンスを向上させる自動サフィックスチューニング (AST) 拡張機能を導入しました。
私たちは、4 つの要約データセットと 5 つの QA データセットにわたる 4 つの最先端の LLM で CriSPO を評価します。
広範な実験により、要約に関する ROUGE スコアが 3 ～ 4% 向上し、QA に関するさまざまな指標が大幅に向上したことが示されています。
コードは https://github.com/amazon-science/crispo で入手できます

要約(オリジナル)

Existing automatic prompt engineering methods are typically designed for discriminative tasks, where new task prompts are iteratively refined with limited feedback from a single metric reflecting a single aspect. However, these approaches are suboptimal for generative tasks, which require more nuanced guidance beyond a single numeric metric to improve the prompt and optimize multiple aspects of the generated text. To address these challenges, we propose a novel multi-aspect Critique-Suggestion-guided automatic Prompt Optimization (CriSPO) approach. CriSPO introduces a critique-suggestion module as its core component. This module spontaneously discovers aspects, and compares generated and reference texts across these aspects, providing specific suggestions for prompt modification. These clear critiques and actionable suggestions guide a receptive optimizer module to make more substantial changes, exploring a broader and more effective search space. To further improve CriSPO with multi-metric optimization, we introduce an Automatic Suffix Tuning (AST) extension to enhance the performance of task prompts across multiple metrics. We evaluate CriSPO on 4 state-of-the-art LLMs across 4 summarization and 5 QA datasets. Extensive experiments show 3-4% ROUGE score improvement on summarization and substantial improvement of various metrics on QA. Code available at https://github.com/amazon-science/crispo

arxiv情報

著者	Han He,Qianchu Liu,Lei Xu,Chaitanya Shivade,Yi Zhang,Sundararajan Srinivasan,Katrin Kirchhoff
発行日	2025-01-14 17:20:04+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

CriSPO: Multi-Aspect Critique-Suggestion-guided Automatic Prompt Optimization for Text Generation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー