Inference Scaling $\scriptsize\mathtt{F}$Laws: The Limits of LLM Resampling with Imperfect Verifiers

要約

最近の研究では、単体テストに合格するまでコーディング問題に対する解決策を繰り返しサンプリングすることなどにより、推論スケーリングにより、弱い言語モデルがより強力なモデルの精度と同等またはそれを上回る精度を実現できる可能性があるという期待が生まれています。
この論文の中心的なテーマは、推論スケーリングにはフリーランチはないということです。リサンプリングによる無限の精度向上は、「検証者」 (この場合は一連の単体テスト) が完璧な場合にのみ実現できます。
ほとんどの場合、推論やコーディングなどの領域で検証器が不完全である場合 (たとえば、単体テストのカバレッジが不完全である場合)、ゼロ以外の確率で誤検知、つまり検証器を通過する誤ったソリューションが発生します。
リサンプリングではこの確率を下げることはできないため、無限のコンピューティング バジェットであっても、リサンプリング ベースの推論スケーリングの精度に上限が課せられます。
モデルの単一サンプル精度 (つまり、単体テストなしの精度) と、単体テストの範囲が限られているコーディング ベンチマーク HumanEval および MBPP での偽陽性率との間には、非常に強い相関関係があることがわかりました。
したがって、弱いモデルをいくら推論スケーリングしても、十分に強いモデルの単一サンプル精度と一致させることはできません (図 1a)。
偽陽性には、解決策の生成を控えることに比べてマイナスの効用があると考えると、推論スケーリング曲線がさらに下向きに曲がります。
経験的に、現実的な仮定の下では、最適なサンプル数は 10 未満になる可能性があることがわかります (図 1b)。
最後に、誤検知には正確性を超えて、コーディング スタイルの規則への準拠が不十分であるなど、他の望ましくない性質がある可能性があることを示します。

要約(オリジナル)

Recent research has generated hope that inference scaling could allow weaker language models to match or exceed the accuracy of stronger models, such as by repeatedly sampling solutions to a coding problem until it passes unit tests. The central thesis of this paper is that there is no free lunch for inference scaling: indefinite accuracy improvement through resampling can only be realized if the ‘verifier’ (in this case, a set of unit tests) is perfect. When the verifier is imperfect, as it almost always is in domains such as reasoning or coding (for example, unit tests have imperfect coverage), there is a nonzero probability of false positives: incorrect solutions that pass the verifier. Resampling cannot decrease this probability, so it imposes an upper bound to the accuracy of resampling-based inference scaling even with an infinite compute budget. We find that there is a very strong correlation between the model’s single-sample accuracy (i.e. accuracy without unit tests) and its false positive rate on coding benchmarks HumanEval and MBPP, whose unit tests have limited coverage. Therefore, no amount of inference scaling of weaker models can enable them to match the single-sample accuracy of a sufficiently strong model (Fig. 1a). When we consider that false positives have a negative utility compared to abstaining from producing a solution, it bends the inference scaling curve further downward. Empirically, we find that the optimal number of samples can be less than 10 under realistic assumptions (Fig. 1b). Finally, we show that beyond accuracy, false positives may have other undesirable qualities, such as poor adherence to coding style conventions.

arxiv情報

著者 Benedikt Stroebl,Sayash Kapoor,Arvind Narayanan
発行日 2024-11-26 15:13:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク