要約
特定の入力のブラックボックスディープ生成モデル(テキストプロンプトなど)から出力(ソフトウェアコードや自然言語テキストなど)をサンプリングすることにより、有効な予測セットを生成する問題を検討します。
予測セットの妥当性は、ターゲットアプリケーションに応じてユーザー定義のバイナリ許容機能によって決定されます。
たとえば、セット内の少なくとも1つのプログラムがコード生成アプリケーションですべてのテストケースに合格するために必要です。
この問題に対処するために、生成予測セット(GPS)と呼ばれるシンプルで効果的な立法推論アルゴリズムを開発します。
一連のキャリブレーションの例と深い生成モデルへのブラックボックスアクセスを考えると、GPSは証明可能な保証で予測セットを生成できます。
GPSの背後にある重要な洞察は、最小サンプル数にわたって単純なコンフォーマル回帰アプローチを開発するために許容可能な出力を取得するために必要なサンプルの最小数にわたって分布内の固有の構造を活用することです。
異なる大規模な言語モデルを使用したコードおよび数学の単語の問題の複数のデータセットでの実験は、最先端の方法よりもGPSの有効性を示しています。
要約(オリジナル)
We consider the problem of generating valid and small prediction sets by sampling outputs (e.g., software code and natural language text) from a black-box deep generative model for a given input (e.g., textual prompt). The validity of a prediction set is determined by a user-defined binary admissibility function depending on the target application. For example, requiring at least one program in the set to pass all test cases in code generation application. To address this problem, we develop a simple and effective conformal inference algorithm referred to as Generative Prediction Sets (GPS). Given a set of calibration examples and black-box access to a deep generative model, GPS can generate prediction sets with provable guarantees. The key insight behind GPS is to exploit the inherent structure within the distribution over the minimum number of samples needed to obtain an admissible output to develop a simple conformal regression approach over the minimum number of samples. Experiments on multiple datasets for code and math word problems using different large language models demonstrate the efficacy of GPS over state-of-the-art methods.
arxiv情報
著者 | Hooman Shahrokhi,Devjeet Raj Roy,Yan Yan,Venera Arnaoudova,Janaradhan Rao Doppa |
発行日 | 2025-03-13 16:16:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google