ProRefine: Inference-time Prompt Refinement with Textual Feedback

要約

複数のAIエージェントが協力して推論や計画などの複雑なタスクを達成するエージェントワークフローがますます一般的になっています。
ただし、これらのワークフローは、主に個々のエージェントを効果的にガイドしないと主に設計が不十分なプロンプトが原因で、エラーの伝播と最適なパフォーマンスに悩まされることがよくあります。
これらの強力なシステムの信頼性とスケーラビリティを制限するため、これは重大な問題です。
この課題に対処するために、大規模な言語モデル(LLMS)からのテキストフィードバックを活用する革新的な推論時間プロンプト最適化方法であるProRefineを紹介します。
ProRefineは、追加のトレーニングやグラウンドトゥルースラベルなしで、マルチステップの推論タスクのプロンプトを動的に改良します。
5つのベンチマーク数学的推論データセットで評価され、ProRefineはゼロショットチェーンのベースラインを3〜37パーセントポイント上回ります。
このアプローチは、精度を高めるだけでなく、より大きなモデルのパフォーマンスに一致させることを可能にし、効率的でスケーラブルなAI展開の可能性を強調し、高性能AIへのアクセスを民主化します。

要約(オリジナル)

Agentic workflows, where multiple AI agents collaborate to accomplish complex tasks like reasoning or planning, are becoming increasingly prevalent. However, these workflows often suffer from error propagation and sub-optimal performance, largely due to poorly designed prompts that fail to effectively guide individual agents. This is a critical problem because it limits the reliability and scalability of these powerful systems. We introduce ProRefine, an innovative inference-time prompt optimization method that leverages textual feedback from large language models (LLMs) to address this challenge. ProRefine dynamically refines prompts for multi-step reasoning tasks without additional training or ground truth labels. Evaluated on five benchmark mathematical reasoning datasets, ProRefine significantly surpasses zero-shot Chain-of-Thought baselines by 3 to 37 percentage points. This approach not only boosts accuracy but also allows smaller models to match the performance of larger ones, highlighting its potential for efficient and scalable AI deployment, and democratizing access to high-performing AI.

arxiv情報

著者 Deepak Pandita,Tharindu Cyril Weerasooriya,Ankit Parag Shah,Christopher M. Homan,Wei Wei
発行日 2025-06-05 17:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク