要約
過去の作品は、不確実性の定量化を大規模な言語モデル(LLM)出力にどのように適用できるかを示していますが、結果として生じる不確実性の保証がデータのサブグループ内にまだ保証されているかどうかの問題はまだ開いています。
私たちの研究では、LLMによって生成された長い形式のテキストを考えると、出力内(キャリブレーションを介して)内に含まれる個々のクレームのレベルと、出力全体(コンフォーマル予測を介して)の両方で不確実性を研究します。
この研究のテストベッドとして伝記生成を使用して、各世代の(たとえば、あるテキストが男性であるか女性を説明するかどうかなど)一連の(人口統計学的)属性を導き出して、そのような「サブグループ」のデータを形成します。
両方のタイプの不確実性の定量化の標準的な方法は、データセット全体で測定するときにうまく機能するが、特定のサブグループを調べるときにそのような保証が壊れることがある。
この問題を確立した後、不確実性の定量化のためのグループ条件付き方法(多目的および多等のコンフォーマル予測)を呼び出し、さまざまなアプローチで、追加のサブグループ情報が一貫してサブグループ内の校正とコンフォーマル予測を改善することを発見します(一方、データセット全体で決定的に保証を保証します)。
キャリブレーション、コンフォーマル予測、およびそのマルチグループのカウンターパートの問題は、長期のテキスト生成のコンテキストで広範囲に調査されていないため、これらの結果はこの設定のベンチマークを形成すると考えています。
要約(オリジナル)
While past works have shown how uncertainty quantification can be applied to large language model (LLM) outputs, the question of whether resulting uncertainty guarantees still hold within sub-groupings of data remains open. In our work, given some long-form text generated by an LLM, we study uncertainty at both the level of individual claims contained within the output (via calibration) and across the entire output itself (via conformal prediction). Using biography generation as a testbed for this study, we derive a set of (demographic) attributes (e.g., whether some text describes a man or woman) for each generation to form such ‘subgroups’ of data. We find that although canonical methods for both types of uncertainty quantification perform well when measuring across the entire dataset, such guarantees break down when examining particular subgroups. Having established this issue, we invoke group-conditional methods for uncertainty quantification — multicalibration and multivalid conformal prediction — and find that across a variety of approaches, additional subgroup information consistently improves calibration and conformal prediction within subgroups (while crucially retaining guarantees across the entire dataset). As the problems of calibration, conformal prediction, and their multi-group counterparts have not been extensively explored in the context of long-form text generation, we consider these results to form a benchmark for this setting.
arxiv情報
著者 | Terrance Liu,Zhiwei Steven Wu |
発行日 | 2025-06-12 16:27:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google