要約
私たちは、マサートノイズの存在下でのオンライン学習のタスクを研究します。
オンラインの敵対者がラベルの任意のシーケンスを選択すると仮定する代わりに、コンテキスト $\mathbf{x}$ が敵対的に選択されているが、学習者に提示されたラベル $y$ が $\mathbf のグラウンドトゥルース ラベルと一致しないと仮定します。
{x}$ の確率は最大でも $\eta$ です。
$\gamma$-margin 線形分類器の基本クラスを研究し、誤り限界 $\eta T + o(T)$ を達成する計算効率の高いアルゴリズムを提示します。
私たちの誤り限界は、効率的なアルゴリズムにとって定性的にタイトです。オフライン設定でも、$\eta$ よりも優れた分類誤差を達成するには、SQ モデルで超多項式時間が必要であることが知られています。
オンライン学習モデルを $k$-arm コンテキスト バンディット設定に拡張します。ここでは、報酬が、一般的に使用される実現可能性の仮定を満たすのではなく、重みベクトル $\mathbf{w} を持つ線形ランキング関数と (期待どおりに) 一致します。
^\ast$。
コンテキスト $\mathbf{x}_1,\ldots \mathbf{x}_k$ のリストが与えられた場合、$\mathbf{w}^*\cdot \mathbf{x}_i > \mathbf{w}^* \cdot の場合
\mathbf{x}_j$ の場合、アクション $i$ の期待される報酬は、$j$ の報酬より少なくとも $\Delta$ 大きくなければなりません。
Massart オンライン学習器を使用して、ラウンドごとにランダムなアクションを選択するよりも少なくとも $(1-1/k)~ \Delta T – o(T)$ 大きな期待報酬を得る効率的なバンディット アルゴリズムを設計します。
要約(オリジナル)
We study the task of online learning in the presence of Massart noise. Instead of assuming that the online adversary chooses an arbitrary sequence of labels, we assume that the context $\mathbf{x}$ is selected adversarially but the label $y$ presented to the learner disagrees with the ground-truth label of $\mathbf{x}$ with unknown probability at most $\eta$. We study the fundamental class of $\gamma$-margin linear classifiers and present a computationally efficient algorithm that achieves mistake bound $\eta T + o(T)$. Our mistake bound is qualitatively tight for efficient algorithms: it is known that even in the offline setting achieving classification error better than $\eta$ requires super-polynomial time in the SQ model. We extend our online learning model to a $k$-arm contextual bandit setting where the rewards — instead of satisfying commonly used realizability assumptions — are consistent (in expectation) with some linear ranking function with weight vector $\mathbf{w}^\ast$. Given a list of contexts $\mathbf{x}_1,\ldots \mathbf{x}_k$, if $\mathbf{w}^*\cdot \mathbf{x}_i > \mathbf{w}^* \cdot \mathbf{x}_j$, the expected reward of action $i$ must be larger than that of $j$ by at least $\Delta$. We use our Massart online learner to design an efficient bandit algorithm that obtains expected reward at least $(1-1/k)~ \Delta T – o(T)$ bigger than choosing a random action at every round.
arxiv情報
著者 | Ilias Diakonikolas,Vasilis Kontonis,Christos Tzamos,Nikos Zarifis |
発行日 | 2024-05-21 17:31:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google