Understanding Uncertainty Sampling

要約

不確実性サンプリングは、現在の予測モデルが不確実であるデータ サンプルの注釈を順番にクエリする、一般的な能動学習アルゴリズムです。
しかし、不確実性サンプリングの使用は主にヒューリスティックなものです。(i) 特定の損失の下での特定のタスクに対する「不確実性」の適切な定義についてはコンセンサスがありません。
(ii) アルゴリズムを実装するための標準プロトコル、たとえば、確率的勾配降下法などの最適化アルゴリズムのフレームワークの下で、順次到着する注釈付きデータをどのように扱うかなどを規定する理論的な保証はありません。
この研究では、ストリームベースとプールベースの両方のアクティブラーニングの下で​​不確実性サンプリングアルゴリズムを系統的に検証します。
我々は、使用される不確実性尺度と元の損失関数に依存する等価損失の概念を提案し、不確実性サンプリング アルゴリズムがそのような等価損失に対して本質的に最適化することを確立します。
この観点では、代理特性と損失コンベクシティの 2 つの側面から既存の不確実性尺度の適切性を検証します。
さらに、不確実性尺度を設計するための \textit{不確実性としての損失} と呼ばれる新しい概念を提案します。
このアイデアは、不確実性の尺度として、特徴を考慮した条件付きの予想損失を使用することです。
このような不確実性の尺度は、分類問題と回帰問題の両方をカバーする優れた分析特性と一般性を備えており、これにより、ストリームベースとプールベースの両方の設定の下で、基礎となるモデルと問題の完全な一般性において、不確実性サンプリング アルゴリズムの最初の一般化限界を提供することができます。
最後に、リスクに敏感な目的と分布の堅牢性を備えた不確実性サンプリング アルゴリズムの特定のバリアント間の関係を確立します。これにより、サンプル サイズが小さい場合の不確実性サンプリング アルゴリズムの利点を部分的に説明できます。

要約(オリジナル)

Uncertainty sampling is a prevalent active learning algorithm that queries sequentially the annotations of data samples which the current prediction model is uncertain about. However, the usage of uncertainty sampling has been largely heuristic: (i) There is no consensus on the proper definition of ‘uncertainty’ for a specific task under a specific loss; (ii) There is no theoretical guarantee that prescribes a standard protocol to implement the algorithm, for example, how to handle the sequentially arrived annotated data under the framework of optimization algorithms such as stochastic gradient descent. In this work, we systematically examine uncertainty sampling algorithms under both stream-based and pool-based active learning. We propose a notion of equivalent loss which depends on the used uncertainty measure and the original loss function and establish that an uncertainty sampling algorithm essentially optimizes against such an equivalent loss. The perspective verifies the properness of existing uncertainty measures from two aspects: surrogate property and loss convexity. Furthermore, we propose a new notion for designing uncertainty measures called \textit{loss as uncertainty}. The idea is to use the conditional expected loss given the features as the uncertainty measure. Such an uncertainty measure has nice analytical properties and generality to cover both classification and regression problems, which enable us to provide the first generalization bound for uncertainty sampling algorithms under both stream-based and pool-based settings, in the full generality of the underlying model and problem. Lastly, we establish connections between certain variants of the uncertainty sampling algorithms with risk-sensitive objectives and distributional robustness, which can partly explain the advantage of uncertainty sampling algorithms when the sample size is small.

arxiv情報

著者 Shang Liu,Xiaocheng Li
発行日 2023-07-20 17:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク