要約
大規模な言語モデルと同様に、生成モデルは私たちの日常生活との関連性が高まっていますが、その一般化動作と不確実性を評価するための理論的枠組みは存在しません。
特に、不確実性の推定の問題は、通常、その場限りの方法でタスクに依存して解決されます。
たとえば、自然言語のアプローチを画像生成に転用することはできません。
この論文では、カーネル スコアとそれに関連するエントロピーに対する最初のバイアス-分散-共分散分解を紹介します。
私たちは、生成されたサンプルのみを必要とし、基礎となるモデル自体を必要としない、各量に対する不偏で一貫した推定量を提案します。
応用として、拡散モデルの一般化評価を提供し、少数派グループのモード崩壊が過学習とは逆の現象であることを発見します。
さらに、分散と予測カーネル エントロピーが画像、音声、言語生成の不確実性の実行可能な尺度であることを示します。
具体的には、不確実性を推定するための私たちのアプローチは、既存のベースラインよりも CoQA および TriviaQA 質問応答データセットのパフォーマンスを予測しやすく、クローズドソース モデルにも適用できます。
要約(オリジナル)
Generative models, like large language models, are becoming increasingly relevant in our daily lives, yet a theoretical framework to assess their generalization behavior and uncertainty does not exist. Particularly, the problem of uncertainty estimation is commonly solved in an ad-hoc manner and task dependent. For example, natural language approaches cannot be transferred to image generation. In this paper we introduce the first bias-variance-covariance decomposition for kernel scores and their associated entropy. We propose unbiased and consistent estimators for each quantity which only require generated samples but not the underlying model itself. As an application, we offer a generalization evaluation of diffusion models and discover how mode collapse of minority groups is a contrary phenomenon to overfitting. Further, we demonstrate that variance and predictive kernel entropy are viable measures of uncertainty for image, audio, and language generation. Specifically, our approach for uncertainty estimation is more predictive of performance on CoQA and TriviaQA question answering datasets than existing baselines and can also be applied to closed-source models.
arxiv情報
| 著者 | Sebastian G. Gruber,Florian Buettner |
| 発行日 | 2023-10-09 16:22:11+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google