Gaussian Process Probes (GPP) for Uncertainty-Aware Probing


モデルで表される概念の不確実性を調査および測定するための統一されたシンプルなフレームワークであるガウス プロセス プローブ (GPP) を紹介します。
線形探索法のベイジアン拡張として、GPP は、(概念の) 分類子にわたるどのような分布がモデルによって引き起こされるかを尋ねます。
GPP は、入力 (アクティベーションなど) のベクトル表現を使用して事前トレーニングされたモデルに適用できます。
トレーニング データ、勾配、アーキテクチャへのアクセスは必要ありません。
合成画像と実際の画像の両方を含むデータセットで GPP を検証します。
私たちの実験では、(1) 非常に少数の例であっても、モデルの概念表現を精査できる、(2) 認識論的不確実性 (調査がどの程度信頼できるか) と偶発的不確実性 (概念がモデルに対してどの程度曖昧であるか) の両方を正確に測定できることが示されました。
GPP は、ガウス プロセスを使用してプロービングが提供できる機能を拡張することにより、機械学習モデルの機能を理解および評価するための、データ効率が高く多用途で不確実性を認識するツールを提供します。


Understanding which concepts models can and cannot represent has been fundamental to many tasks: from effective and responsible use of models to detecting out of distribution data. We introduce Gaussian process probes (GPP), a unified and simple framework for probing and measuring uncertainty about concepts represented by models. As a Bayesian extension of linear probing methods, GPP asks what kind of distribution over classifiers (of concepts) is induced by the model. This distribution can be used to measure both what the model represents and how confident the probe is about what the model represents. GPP can be applied to any pre-trained model with vector representations of inputs (e.g., activations). It does not require access to training data, gradients, or the architecture. We validate GPP on datasets containing both synthetic and real images. Our experiments show it can (1) probe a model’s representations of concepts even with a very small number of examples, (2) accurately measure both epistemic uncertainty (how confident the probe is) and aleatory uncertainty (how fuzzy the concepts are to the model), and (3) detect out of distribution data using those uncertainty measures as well as classic methods do. By using Gaussian processes to expand what probing can offer, GPP provides a data-efficient, versatile and uncertainty-aware tool for understanding and evaluating the capabilities of machine learning models.


著者 Zi Wang,Alexander Ku,Jason Baldridge,Thomas L. Griffiths,Been Kim
発行日 2023-05-29 17:00:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG パーマリンク