Optimal Decision Tree and Adaptive Submodular Ranking with Noisy Outcomes

要約

プールベースのアクティブ ラーニングでは、学習者にはラベルのないデータ セットが与えられ、データ ポイントのラベルをクエリすることで未知の仮説を効率的に学習することを目指します。
これは、古典的な最適決定ツリー (ODT) 問題として定式化できます。一連のテスト、一連の仮説、およびテストと仮説の各ペアの結果が与えられた場合、私たちの目的は、低コストのテスト手順 (すなわち、
、デシジョン ツリー)、真の仮説を特定します。
この最適化問題は、各テストが決定論的な結果を生成するという仮定の下で広範囲に研究されてきました。
ただし、臨床試験などの多くのアプリケーションでは、結果が不確実である可能性があり、決定論的な設定からのアイデアが無効になります。
この研究では、ノイズが持続するより一般的なケース、つまり、テストを繰り返すと同じノイズの多い出力が得られる場合でも、一部のテスト結果にノイズが含まれる ODT 問題の基本的な変形を研究します。
当社の近似アルゴリズムは、ほぼ最良の保証を提供し、テストごとまたは仮説ごとにノイズの多い結果が多数発生し、この数に応じてパフォーマンスが継続的に低下する一般的なケースに当てはまります。
私たちは、有毒化学物質の特定と線形分類器の学習のためのアルゴリズムを数値的に評価し、アルゴリズムのコストが情報理論上の最小値に非常に近いことを観察しました。

要約(オリジナル)

In pool-based active learning, the learner is given an unlabeled data set and aims to efficiently learn the unknown hypothesis by querying the labels of the data points. This can be formulated as the classical Optimal Decision Tree (ODT) problem: Given a set of tests, a set of hypotheses, and an outcome for each pair of test and hypothesis, our objective is to find a low-cost testing procedure (i.e., decision tree) that identifies the true hypothesis. This optimization problem has been extensively studied under the assumption that each test generates a deterministic outcome. However, in numerous applications, for example, clinical trials, the outcomes may be uncertain, which renders the ideas from the deterministic setting invalid. In this work, we study a fundamental variant of the ODT problem in which some test outcomes are noisy, even in the more general case where the noise is persistent, i.e., repeating a test gives the same noisy output. Our approximation algorithms provide guarantees that are nearly best possible and hold for the general case of a large number of noisy outcomes per test or per hypothesis where the performance degrades continuously with this number. We numerically evaluated our algorithms for identifying toxic chemicals and learning linear classifiers, and observed that our algorithms have costs very close to the information-theoretic minimum.

arxiv情報

著者 Su Jia,Fatemeh Navidi,Viswanath Nagarajan,R. Ravi
発行日 2024-07-31 16:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク