Active Learning with Simple Questions

要約

ドメイン X に属する n 個のラベルなし例のプール S が学習者に提示され、ターゲット概念 h^* \in H に一致する基礎となるラベル付けを見つけるようにクエリを求めるアクティブ ラーニング設定を検討します。従来のアクティブ ラーニングとは対照的に、
ラベルの単一の例をクエリすることを学習した後、学習者がドメイン T \subset X のサブセットとターゲット ラベル y を選択して、ラベラーに h^*(x) = y かどうかを尋ねることができる、より一般的な領域クエリを学習します。
セット T \cap S 内のすべての例。このようなより強力なクエリにより、従来のアクティブ ラーニングの制限を回避でき、学習に使用するインタラクションの回数が大幅に減りますが、クエリ言語が大幅に複雑になる可能性があります。
私たちの主な貢献は、クエリの数と学習者が使用するクエリ言語の複雑さとの間のトレードオフを定量化することです。
領域ファミリーの VC ディメンションを介して領域クエリの複雑さを測定します。
VC 次元 d の仮説クラス H が与えられた場合、n 個の例のセット S \subset X および H のすべての h^* \in に対して、
学習者は、Q からの O(d log n) クエリをラベラーに送信して、S を完全にラベル付けできます。VC 次元 d の仮説クラス H とサイズ n のデータセット S \subset X を設計することによって、一致する下限を示します。
VC 次元 O(d) のクエリ クラスを使用するアルゴリズムは、S に完全にラベルを付けるために Poly(n) クエリを作成する必要があります。
最後に、間隔の和集合、高次元のボックス、d 次元の半空間など、よく研究された仮説クラスに焦点を当て、より強力な結果を取得します。
特に、(i) 計算効率が高く、(ii) 学習者の例プール S ではなく S の未知のスーパーセット L に基づいてクエリが回答されない場合でも機能する学習アルゴリズムを設計します。

要約(オリジナル)

We consider an active learning setting where a learner is presented with a pool S of n unlabeled examples belonging to a domain X and asks queries to find the underlying labeling that agrees with a target concept h^* \in H. In contrast to traditional active learning that queries a single example for its label, we study more general region queries that allow the learner to pick a subset of the domain T \subset X and a target label y and ask a labeler whether h^*(x) = y for every example in the set T \cap S. Such more powerful queries allow us to bypass the limitations of traditional active learning and use significantly fewer rounds of interactions to learn but can potentially lead to a significantly more complex query language. Our main contribution is quantifying the trade-off between the number of queries and the complexity of the query language used by the learner. We measure the complexity of the region queries via the VC dimension of the family of regions. We show that given any hypothesis class H with VC dimension d, one can design a region query family Q with VC dimension O(d) such that for every set of n examples S \subset X and every h^* \in H, a learner can submit O(d log n) queries from Q to a labeler and perfectly label S. We show a matching lower bound by designing a hypothesis class H with VC dimension d and a dataset S \subset X of size n such that any learning algorithm using any query class with VC dimension O(d) must make poly(n) queries to label S perfectly. Finally, we focus on well-studied hypothesis classes including unions of intervals, high-dimensional boxes, and d-dimensional halfspaces, and obtain stronger results. In particular, we design learning algorithms that (i) are computationally efficient and (ii) work even when the queries are not answered based on the learner’s pool of examples S but on some unknown superset L of S

arxiv情報

著者 Vasilis Kontonis,Mingchen Ma,Christos Tzamos
発行日 2024-05-13 17:13:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG パーマリンク