Conformal Nucleus Sampling

要約

タイトル:Conformal Nucleus Sampling

要約:

– 言語モデルは、次の語をサンプリングすることに基づいてテキストを生成する。
– Nucleus(top-p)サンプリングに基づくデコーディング手順は、確率がpを超える最小限の単語集合から選択する。
– この研究では、top-pセットが各言語コンテキストにおいて確率的な意味に合致しているかどうかを評価した。
– 期待される信頼度に従って最小予測セットを構築するキャリブレーション手順である適合性予測を使用して、次の語の分布のエントロピーの関数としてパラメーターpをキャリブレートする。
– OPTモデルは自信過剰であることがわかり、キャリブレーションはモデルのサイズと比例して適度に逆スケーリングすることが示された。

要約(オリジナル)

Language models generate text based on successively sampling the next word. A decoding procedure based on nucleus (top-$p$) sampling chooses from the smallest possible set of words whose cumulative probability exceeds the probability $p$. In this work, we assess whether a top-$p$ set is indeed aligned with its probabilistic meaning in various linguistic contexts. We employ conformal prediction, a calibration procedure that focuses on the construction of minimal prediction sets according to a desired confidence level, to calibrate the parameter $p$ as a function of the entropy of the next word distribution. We find that OPT models are overconfident, and that calibration shows a moderate inverse scaling with model size.

arxiv情報

著者 Shauli Ravfogel,Yoav Goldberg,Jacob Goldberger
発行日 2023-05-04 08:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク