要約
トレーニング コンピューティングのスケーリングによって大規模言語モデル (LLM) は大幅に改善されましたが、推論コンピューティングのスケーリングではまだ同様の利点が得られていません。
私たちは、コアの欠落コンポーネントは多様な LLM 出力の欠如であり、モデルが非常に類似しているが不正確な世代を繰り返しサンプリングするため、非効率的な検索につながると仮説を立てます。
私たちは、自然言語で問題を解決するための候補プランを検索することで、この多様性の欠如を軽減できることを経験的に示しています。
この洞察に基づいて、HumanEval+、MBPP+、および LiveCodeBench (競合コーディング用の汚染のないベンチマーク) 全体で強力な結果を示す新しい検索アルゴリズムである PLANSEARCH を提案します。
PLANSEARCH は、問題に関するさまざまな観察結果を生成し、これらの観察結果を使用して問題を解決するための計画を構築します。
コード ソリューションを直接検索するのではなく、自然言語でプランを検索することにより、PLANSEARCH は、ベースラインの検索方法と比較して、はるかに多様な潜在的なソリューションを探索します。
Claude 3.5 Sonnet に加えて PLANSEARCH を使用すると、LiveCodeBench で 77.0% の最先端の pass@200 が達成され、検索なしで達成された最高スコア (pass@1 = 41.4%) と標準の反復サンプリングを使用した場合 (pass@) の両方を上回りました。
200 = 60.6%)。
最後に、分析したすべてのモデル、検索アルゴリズム、ベンチマークにわたって、生成されたアイデアの多様性の直接的な関数として、検索によるパフォーマンスの向上を正確に予測できることを示します。
要約(オリジナル)
While scaling training compute has led to remarkable improvements in large language models (LLMs), scaling inference compute has not yet yielded analogous gains. We hypothesize that a core missing component is a lack of diverse LLM outputs, leading to inefficient search due to models repeatedly sampling highly similar, yet incorrect generations. We empirically demonstrate that this lack of diversity can be mitigated by searching over candidate plans for solving a problem in natural language. Based on this insight, we propose PLANSEARCH, a novel search algorithm which shows strong results across HumanEval+, MBPP+, and LiveCodeBench (a contamination-free benchmark for competitive coding). PLANSEARCH generates a diverse set of observations about the problem and then uses these observations to construct plans for solving the problem. By searching over plans in natural language rather than directly over code solutions, PLANSEARCH explores a significantly more diverse range of potential solutions compared to baseline search methods. Using PLANSEARCH on top of Claude 3.5 Sonnet achieves a state-of-the-art pass@200 of 77.0% on LiveCodeBench, outperforming both the best score achieved without search (pass@1 = 41.4%) and using standard repeated sampling (pass@200 = 60.6%). Finally, we show that, across all models, search algorithms, and benchmarks analyzed, we can accurately predict performance gains due to search as a direct function of the diversity over generated ideas.
arxiv情報
著者 | Evan Wang,Federico Cassano,Catherine Wu,Yunfeng Bai,Will Song,Vaskar Nath,Ziwen Han,Sean Hendryx,Summer Yue,Hugh Zhang |
発行日 | 2024-09-05 17:44:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google