Fundamental Bounds on Online Strategic Classification

要約

私たちは、戦略的エージェントが、ポジティブな分類を受け取るために、操作グラフによってモデル化された事前定義された方法で観察可能な特徴を操作できるオンライン二値分類の問題を研究します。
私たちは、この設定が非戦略的なオンライン分類とは根本的な点で異なることを示します。
たとえば、非戦略的なケースでは、ターゲット関数が既知のクラス $H$ に属している場合、$\ln|H|$ の間違い限界は半減アルゴリズムによって達成可能ですが、決定論的アルゴリズムでは限界を達成できないことを示します。
戦略的設定における $o(\Delta)$ の間違い。ここで $\Delta$ は操作グラフの最大次数です ($|H|=O(\Delta)$ の場合でも)。
誤り限界 $O(\Delta\ln|H|)$ を達成するアルゴリズムが得られます。
また、これを不可知論的設定に拡張し、$\Delta$ 乗算リグレスを含むアルゴリズムを取得します。また、決定論的なアルゴリズムでは $o(\Delta)$ 乗算リグレスを達成できないことを示します。
次に、ランダムな選択がエージェントが応答する前に行われるか後に行われるかに基づいて 2 つのランダム化モデルを研究し、それらが基本的な違いを示すことを示します。
最初のモデルでは、各ラウンドで学習者が各頂点の期待値 (陽性として分類される確率) を誘導する分類器の確率分布を決定論的に選択し、戦略エージェントはそれに応答します。
このモデルの学習者は必ず直線的な後悔を経験することを示します。
一方、2 番目のモデルでは、次のエージェントを選択する敵対者は分類器にわたる学習者の確率分布に応答する必要がありますが、エージェントはこの分布から抽出された実際の仮説分類器に応答します。
驚くべきことに、我々はこのモデルが学習者にとってより有利であることを示し、気付かない敵対者と適応的な敵対者の両方に対して線形未満の後悔限界を達成するランダム化アルゴリズムを設計しました。

要約(オリジナル)

We study the problem of online binary classification where strategic agents can manipulate their observable features in predefined ways, modeled by a manipulation graph, in order to receive a positive classification. We show this setting differs in fundamental ways from non-strategic online classification. For instance, whereas in the non-strategic case, a mistake bound of $\ln|H|$ is achievable via the halving algorithm when the target function belongs to a known class $H$, we show that no deterministic algorithm can achieve a mistake bound $o(\Delta)$ in the strategic setting, where $\Delta$ is the maximum degree of the manipulation graph (even when $|H|=O(\Delta)$). We obtain an algorithm achieving mistake bound $O(\Delta\ln|H|)$. We also extend this to the agnostic setting and obtain an algorithm with a $\Delta$ multiplicative regret, and we show no deterministic algorithm can achieve $o(\Delta)$ multiplicative regret. Next, we study two randomized models based on whether the random choices are made before or after agents respond, and show they exhibit fundamental differences. In the first model, at each round the learner deterministically chooses a probability distribution over classifiers inducing expected values on each vertex (probabilities of being classified as positive), which the strategic agents respond to. We show that any learner in this model has to suffer linear regret. On the other hand, in the second model, while the adversary who selects the next agent must respond to the learner’s probability distribution over classifiers, the agent then responds to the actual hypothesis classifier drawn from this distribution. Surprisingly, we show this model is more advantageous to the learner, and we design randomized algorithms that achieve sublinear regret bounds against both oblivious and adaptive adversaries.

arxiv情報

著者 Saba Ahmadi,Avrim Blum,Kunhe Yang
発行日 2024-06-25 15:06:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク