要約
LLMを搭載したソフトウェアを構築するには、開発者が自然言語を通じて要件を伝える必要がありますが、開発者のプロンプトには頻繁に概念が込められており、多くのユーザーに重要な要件を完全に把握できません。
この論文では、迅速な分析の詳細な分析を提示します。LLMSはデフォルトでは不特定の要件を推測できることが多いことを示していますが、そのような動作は堅牢性が低くなります。
次に、LLMSの指導に従う能力と競合する制約が限られているため、プロンプトに要件を追加するだけではパフォーマンスが確実に向上しないことを実証します。
これに対処するために、プロンプト内のすべてを素朴に指定するベースラインよりも平均4.8%のパフォーマンスを改善できる新しい要件を意識したプロンプト最適化メカニズムを導入します。
迅速な最適化を超えて、迅速な分割力を効果的に管理するには、プロアクティブな要件の発見、評価、監視など、より広範なプロセスが必要であることを想定しています。
要約(オリジナル)
Building LLM-powered software requires developers to communicate their requirements through natural language, but developer prompts are frequently underspecified, failing to fully capture many user-important requirements. In this paper, we present an in-depth analysis of prompt underspecification, showing that while LLMs can often (41.1%) guess unspecified requirements by default, such behavior is less robust: Underspecified prompts are 2x more likely to regress over model or prompt changes, sometimes with accuracy drops by more than 20%. We then demonstrate that simply adding more requirements to a prompt does not reliably improve performance, due to LLMs’ limited instruction-following capabilities and competing constraints, and standard prompt optimizers do not offer much help. To address this, we introduce novel requirements-aware prompt optimization mechanisms that can improve performance by 4.8% on average over baselines that naively specify everything in the prompt. Beyond prompt optimization, we envision that effectively managing prompt underspecification requires a broader process, including proactive requirements discovery, evaluation, and monitoring.
arxiv情報
著者 | Chenyang Yang,Yike Shi,Qianou Ma,Michael Xieyang Liu,Christian Kästner,Tongshuang Wu |
発行日 | 2025-05-19 17:03:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google