要約
大規模な言語モデルと同様に、生成モデルは私たちの日常生活との関連性が高まっていますが、その一般化動作と不確実性を評価するための理論的枠組みは存在しません。
特に、不確実性の推定の問題は、一般に、その場限りのタスク依存の方法で解決されます。
たとえば、自然言語のアプローチを画像生成に転用することはできません。
この論文では、カーネル スコアの最初のバイアス-分散-共分散分解を紹介します。
この分解は、不確実性推定のためのカーネルベースの分散とエントロピーを導出する理論的枠組みを表しています。
私たちは、生成されたサンプルのみを必要とし、基礎となるモデル自体を必要としない、各量に対する不偏で一貫した推定量を提案します。
カーネルの幅広い適用性に基づいて、画像、音声、および言語の生成に関する一般化および不確実性の実験を通じてフレームワークを実証します。
具体的には、不確実性推定のためのカーネル エントロピーは、既存のベースラインよりも CoQA および TriviaQA 質問応答データセットのパフォーマンスを予測しやすく、クローズドソース モデルにも適用できます。
要約(オリジナル)
Generative models, like large language models, are becoming increasingly relevant in our daily lives, yet a theoretical framework to assess their generalization behavior and uncertainty does not exist. Particularly, the problem of uncertainty estimation is commonly solved in an ad-hoc and task-dependent manner. For example, natural language approaches cannot be transferred to image generation. In this paper, we introduce the first bias-variance-covariance decomposition for kernel scores. This decomposition represents a theoretical framework from which we derive a kernel-based variance and entropy for uncertainty estimation. We propose unbiased and consistent estimators for each quantity which only require generated samples but not the underlying model itself. Based on the wide applicability of kernels, we demonstrate our framework via generalization and uncertainty experiments for image, audio, and language generation. Specifically, kernel entropy for uncertainty estimation is more predictive of performance on CoQA and TriviaQA question answering datasets than existing baselines and can also be applied to closed-source models.
arxiv情報
著者 | Sebastian G. Gruber,Florian Buettner |
発行日 | 2024-07-10 14:37:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google