要約
モデルが表現できる概念と表現できない概念を理解することは、モデルの効果的かつ責任ある使用から分布外データの検出まで、多くのタスクの基礎となっています。
モデルで表される概念の不確実性を調査および測定するための統一されたシンプルなフレームワークであるガウス プロセス プローブ (GPP) を紹介します。
線形探索法のベイジアン拡張として、GPP は、(概念の) 分類子にわたるどのような分布がモデルによって引き起こされるかを尋ねます。
この分布は、モデルが何を表すか、およびモデルが表す内容についてプローブがどの程度確信しているかを測定するために使用できます。
GPP は、入力 (アクティベーションなど) のベクトル表現を使用して事前トレーニングされたモデルに適用できます。
トレーニング データ、勾配、アーキテクチャへのアクセスは必要ありません。
合成画像と実際の画像の両方を含むデータセットで GPP を検証します。
私たちの実験では、(1) 非常に少数の例であっても、モデルの概念表現を精査できる、(2) 認識論的不確実性 (調査がどの程度信頼できるか) と偶発的不確実性 (概念がモデルに対してどの程度曖昧であるか) の両方を正確に測定できることが示されました。
)、(3)古典的な方法と同様に、これらの不確実性尺度を使用して分布外のデータを検出します。
GPP は、ガウス プロセスを使用してプロービングが提供できる機能を拡張することにより、機械学習モデルの機能を理解および評価するための、データ効率が高く多用途で不確実性を認識するツールを提供します。
要約(オリジナル)
Understanding which concepts models can and cannot represent has been fundamental to many tasks: from effective and responsible use of models to detecting out of distribution data. We introduce Gaussian process probes (GPP), a unified and simple framework for probing and measuring uncertainty about concepts represented by models. As a Bayesian extension of linear probing methods, GPP asks what kind of distribution over classifiers (of concepts) is induced by the model. This distribution can be used to measure both what the model represents and how confident the probe is about what the model represents. GPP can be applied to any pre-trained model with vector representations of inputs (e.g., activations). It does not require access to training data, gradients, or the architecture. We validate GPP on datasets containing both synthetic and real images. Our experiments show it can (1) probe a model’s representations of concepts even with a very small number of examples, (2) accurately measure both epistemic uncertainty (how confident the probe is) and aleatory uncertainty (how fuzzy the concepts are to the model), and (3) detect out of distribution data using those uncertainty measures as well as classic methods do. By using Gaussian processes to expand what probing can offer, GPP provides a data-efficient, versatile and uncertainty-aware tool for understanding and evaluating the capabilities of machine learning models.
arxiv情報
著者 | Zi Wang,Alexander Ku,Jason Baldridge,Thomas L. Griffiths,Been Kim |
発行日 | 2023-11-06 13:08:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google