Cost-Effective Online Contextual Model Selection

要約

任意の異種データ ストリームが提示された場合、モデル選択ポリシーを学習するために最も有用なラベルを収集するにはどうすればよいでしょうか?
このホワイト ペーパーでは、このタスクをオンライン コンテキスト アクティブ モデル選択問題として定式化します。この問題では、各ラウンドで、学習者はコンテキストとともにラベルのないデータ ポイントを受け取ります。
目標は、過剰な量のラベルを取得することなく、特定のコンテキストに最適なモデルを出力することです。
特に、事前トレーニングされた分類器を選択するタスクに焦点を当て、適応モデル選択のために特定のポリシー クラスで定義された新しい不確実性サンプリング クエリ基準に依存するコンテキスト アクティブ モデル選択アルゴリズム (CAMS) を提案します。
従来技術と比較して、我々のアルゴリズムは大域的に最適なモデルを想定していません。
敵対的および確率論的設定の両方で、後悔とクエリの複雑さについて厳密な理論的分析を提供します。
いくつかのベンチマーク分類データセットに関する私たちの実験は、後悔とクエリの複雑さの両方の点でアルゴリズムの有効性を示しています。
特に、同じ精度を達成するために、CIFAR10 の最良のオンライン モデル選択ベースラインと比較した場合、CAMS はラベル コストの 10% 未満しか負担しません。

要約(オリジナル)

How can we collect the most useful labels to learn a model selection policy, when presented with arbitrary heterogeneous data streams? In this paper, we formulate this task as an online contextual active model selection problem, where at each round the learner receives an unlabeled data point along with a context. The goal is to output the best model for any given context without obtaining an excessive amount of labels. In particular, we focus on the task of selecting pre-trained classifiers, and propose a contextual active model selection algorithm (CAMS), which relies on a novel uncertainty sampling query criterion defined on a given policy class for adaptive model selection. In comparison to prior art, our algorithm does not assume a globally optimal model. We provide rigorous theoretical analysis for the regret and query complexity under both adversarial and stochastic settings. Our experiments on several benchmark classification datasets demonstrate the algorithm’s effectiveness in terms of both regret and query complexity. Notably, to achieve the same accuracy, CAMS incurs less than 10% of the label cost when compared to the best online model selection baselines on CIFAR10.

arxiv情報

著者 Xuefeng Liu,Fangfang Xia,Rick L. Stevens,Yuxin Chen
発行日 2023-02-17 18:55:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク