要約
最近、多数の作品が推論時間アルゴリズム(例:Best-of-N)を提案しており、生成プロセスを支援するために検証剤を組み込んでいます。
彼らの品質効率のトレードオフは、さまざまな制約された生成タスクに経験的にベンチマークされていますが、アルゴリズム設計の状況はまだほとんど理解されていません。
このホワイトペーパーでは、事前に訓練された言語モデルジェネレーターのOracleとプロセス検証を使用して、制約された生成について推論するための数学的フレームワークを開発します。これは、選択の制約を満たす文字列にプレフィックスを拡張できるかどうかを決定できます。
非常に単純な設定でさえ、検証剤へのアクセスが扱いやすい問題(情報理論的または計算的に)を扱いやすいものにする可能性があることを示します。
実際、TokenWiseの拒絶サンプリングのような単純なアルゴリズムでさえ、検証剤へのアクセスから大きなメリットを享受できることを示しています。
経験的には、サンプラーが「バックトラック」(すなわち、生成された最終的なトークンを消去する)が許可されているトークンワイズ拒絶サンプリングの自然な修正が、自然ベースライン(例えば(ブロックワイズ)のサンプリング、核)に堅牢かつ実質的な利点があることを示しています。
サンプリング) – 計算効率、精度、多様性の両方の観点から。
要約(オリジナル)
Recently, a plethora of works have proposed inference-time algorithms (e.g. best-of-n), which incorporate verifiers to assist the generation process. Their quality-efficiency trade-offs have been empirically benchmarked on a variety of constrained generation tasks, but the algorithmic design landscape is still largely poorly understood. In this paper, we develop a mathematical framework for reasoning about constrained generation using a pre-trained language model generator oracle and a process verifier–which can decide whether a prefix can be extended to a string which satisfies the constraints of choice. We show that even in very simple settings, access to a verifier can render an intractable problem (information-theoretically or computationally) to a tractable one. In fact, we show even simple algorithms, like tokenwise rejection sampling, can enjoy significant benefits from access to a verifier. Empirically, we show that a natural modification of tokenwise rejection sampling, in which the sampler is allowed to ‘backtrack’ (i.e., erase the final few generated tokens) has robust and substantive benefits over natural baselines (e.g. (blockwise) rejection sampling, nucleus sampling)–both in terms of computational efficiency, accuracy and diversity.
arxiv情報
著者 | Edoardo Botta,Yuchen Li,Aashay Mehta,Jordan T. Ash,Cyril Zhang,Andrej Risteski |
発行日 | 2025-02-17 18:46:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google