GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers

要約

大規模な言語モデル(LLMS)の有効性は、プロンプトの設計と密接に結びついているため、幅広いタスクでパフォーマンスを向上させるためにプロンプ​​トの最適化が不可欠です。
迅速なエンジニアリングを自動化するための多くの既存のアプローチは、テキストフィードバックのみに依存しており、大規模で計算上の高価なLLMによって特定された推論エラーのみに基づいてプロンプトを改良しています。
残念ながら、小規模なモデルは高品質のフィードバックを生成するのに苦労しており、大規模なLLM判断に完全に依存しています。
さらに、これらの方法は、純粋にテキスト空間で動作するため、グラデーションなど、より直接的で細かい粒度の高い情報を活用できません。
この目的のために、タスク固有の推論よりも勾配情報を直接組み込む新しい迅速な最適化手法であるGreaterを紹介します。
タスクロスグラデーションを利用することにより、コストのかかるクローズドソースLLMSを必要とせずに、オープンソースの軽量言語モデルのプロンプトの自己最適化を可能にします。
これにより、大規模なLLMSに依存せずに高性能の迅速な最適化が可能になり、小規模なモデルと迅速な改良に必要な洗練された推論とのギャップを埋めます。
BBH、GSM8K、Folioを含む多様な推論タスク全体の広範な評価は、強力なLLMSに依存しているものでさえ、以前の最先端の最適化方法よりも一貫してより大きなパフォーマンスを上回ることを示しています。
さらに、最適化されたプロンプトは頻繁に転送可能性が向上し、場合によっては、より大きな言語モデルに匹敵するまたは達成されたレベルを上回るレベルにタスクのパフォーマンスを高め、推論上のグラデーションによってガイドされる迅速な最適化の有効性を強調します。
Code of Greateはhttps://github.com/psunlpgroup/greaterで入手できます。

要約(オリジナル)

The effectiveness of large language models (LLMs) is closely tied to the design of prompts, making prompt optimization essential for enhancing their performance across a wide range of tasks. Many existing approaches to automating prompt engineering rely exclusively on textual feedback, refining prompts based solely on inference errors identified by large, computationally expensive LLMs. Unfortunately, smaller models struggle to generate high-quality feedback, resulting in complete dependence on large LLM judgment. Moreover, these methods fail to leverage more direct and finer-grained information, such as gradients, due to operating purely in text space. To this end, we introduce GReaTer, a novel prompt optimization technique that directly incorporates gradient information over task-specific reasoning. By utilizing task loss gradients, GReaTer enables self-optimization of prompts for open-source, lightweight language models without the need for costly closed-source LLMs. This allows high-performance prompt optimization without dependence on massive LLMs, closing the gap between smaller models and the sophisticated reasoning often needed for prompt refinement. Extensive evaluations across diverse reasoning tasks including BBH, GSM8k, and FOLIO demonstrate that GReaTer consistently outperforms previous state-of-the-art prompt optimization methods, even those reliant on powerful LLMs. Additionally, GReaTer-optimized prompts frequently exhibit better transferability and, in some cases, boost task performance to levels comparable to or surpassing those achieved by larger language models, highlighting the effectiveness of prompt optimization guided by gradients over reasoning. Code of GReaTer is available at https://github.com/psunlpgroup/GreaTer.

arxiv情報

著者 Sarkar Snigdha Sarathi Das,Ryo Kamoi,Bo Pang,Yusen Zhang,Caiming Xiong,Rui Zhang
発行日 2025-04-07 15:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク