Submodular Information Selection for Hypothesis Testing with Misclassification Penalties

要約

仮説検証/分類タスクに最適な情報ソースのサブセットを選択するという問題を考えます。その目的は、ソースからの有限の観察サンプルに基づいて、有限の仮説セットから世界の真の状態を特定することです。
学習パフォーマンスを特徴付けるために、さまざまな誤分類エラーの不均一な処理を可能にする誤分類ペナルティ フレームワークを提案します。
集中ベイジアン学習設定では、サブセット選択問題の 2 つの変形を研究します: (i) 真の仮説を誤って分類した場合の最大ペナルティが望ましい限界を下回るようにするための最小コスト情報セットの選択、および (ii) 最適な情報の選択
真の仮説を誤って分類した場合の最大のペナルティを最小限に抑えるために、限られた予算の下で設定されます。
特定の仮定の下で、これらの組み合わせ最適化問題の目的 (または制約) が弱い (または近似的な) サブモジュラーであることを証明し、貪欲なアルゴリズムに対する高確率のパフォーマンス保証を確立します。
さらに、誤分類の合計ペナルティに基づく情報セット選択の代替メトリックを提案します。
我々は、このメトリクスがサブモジュールであることを証明し、両方の情報セット選択問題に対する貪欲アルゴリズムの最適に近い保証を確立します。
最後に、ランダムに生成されたいくつかのインスタンスに対する理論的結果を検証する数値シミュレーションを示します。

要約(オリジナル)

We consider the problem of selecting an optimal subset of information sources for a hypothesis testing/classification task where the goal is to identify the true state of the world from a finite set of hypotheses, based on finite observation samples from the sources. In order to characterize the learning performance, we propose a misclassification penalty framework, which enables nonuniform treatment of different misclassification errors. In a centralized Bayesian learning setting, we study two variants of the subset selection problem: (i) selecting a minimum cost information set to ensure that the maximum penalty of misclassifying the true hypothesis is below a desired bound and (ii) selecting an optimal information set under a limited budget to minimize the maximum penalty of misclassifying the true hypothesis. Under certain assumptions, we prove that the objective (or constraints) of these combinatorial optimization problems are weak (or approximate) submodular, and establish high-probability performance guarantees for greedy algorithms. Further, we propose an alternate metric for information set selection which is based on the total penalty of misclassification. We prove that this metric is submodular and establish near-optimal guarantees for the greedy algorithms for both the information set selection problems. Finally, we present numerical simulations to validate our theoretical results over several randomly generated instances.

arxiv情報

著者 Jayanth Bhargav,Mahsa Ghasemi,Shreyas Sundaram
発行日 2024-06-28 03:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.IT, cs.LG, math.IT, math.OC, stat.ML パーマリンク