Online Prompt Selection for Program Synthesis

要約

大規模な言語モデル(LLMS)は、プログラム統合のドメインで印象的な機能を示しています。
ただし、このレベルのパフォーマンスは、すべてのタスク、すべてのLLM、およびすべてのプロンプトスタイルにわたって普遍的ではありません。
1つのLLMが支配する多くの領域があり、1つのプロンプトスタイルが支配する、またはシンボリックソルバーを呼び出すことがLLMよりも良い選択です。
ユーザーにとって重要な課題は、LLMがソルバーの正しい選択である場合だけでなく、特定の合成タスクを要求する適切なLLMである場合だけでなく、それを呼び出す正しい方法であることです。
間違った選択をしている非専門家ユーザーは、商業APIを介してクローズドソース言語モデルを使用する場合、結果(解決されたタスクの数と解決に時間がかかる時間)と財務コストの両方の点でコストを負担します。

この選択は、オンライン学習の問題としてフレーム化します。
マルチアームのBanditアルゴリズムを使用して、どのシンボリックソルバー、またはLLMとプロンプトの組み合わせを選択して、特定の報酬関数を最大化するために展開するように展開します(解決時間、解決された合成タスクの数、または解決の財務コストを優先する場合があります)。
CyaneAと呼ばれるこのアプローチのインスタンスを実装し、ランキング関数合成の文献からの合成クエリで、構文誘導合成競争から、およびSMT問題から生成された新鮮で目に見えないクエリを評価します。
CYANEAは、最高のシングルソルバーよりも37.2%多くのクエリを解決し、仮想最高のソルバーの4%以内の結果を達成します。

要約(オリジナル)

Large Language Models (LLMs) demonstrate impressive capabilities in the domain of program synthesis. This level of performance is not, however, universal across all tasks, all LLMs and all prompting styles. There are many areas where one LLM dominates, one prompting style dominates, or where calling a symbolic solver is a better choice than an LLM. A key challenge for the user then, is to identify not only when an LLM is the right choice of solver, and the appropriate LLM to call for a given synthesis task, but also the right way to call it. A non-expert user who makes the wrong choice, incurs a cost both in terms of results (number of tasks solved, and the time it takes to solve them) and financial cost, if using a closed-source language model via a commercial API. We frame this choice as an online learning problem. We use a multi-armed bandit algorithm to select which symbolic solver, or LLM and prompt combination to deploy in order to maximize a given reward function (which may prioritize solving time, number of synthesis tasks solved, or financial cost of solving). We implement an instance of this approach, called CYANEA, and evaluate it on synthesis queries from the literature in ranking function synthesis, from the syntax-guided synthesis competition, and fresh, unseen queries generated from SMT problems. CYANEA solves 37.2% more queries than the best single solver and achieves results within 4% of the virtual best solver.

arxiv情報

著者 Yixuan Li,Lewis Frampton,Federico Mora,Elizabeth Polgreen
発行日 2025-01-29 16:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク