要約
敵対的な訓練は、 *敵対者 *を防御することを目的としています。その唯一の目的は、可能な限り予測パフォーマンスを害することを目的としています。
代わりに、分類器に対して直接作業するのではなく、単に自分の目標を追求するものとして相手をモデル化することを提案します。
戦略的モデリングからツールを採用すると、私たちのアプローチは、学習のための帰納的バイアスとして、相手の可能性のあるインセンティブに関する知識または信念を使用します。
*戦略的トレーニング *の方法は、 *インセンティブの不確実性セット *内で対戦相手を防御するように設計されています *:このセットが最大である場合、この敵対的な学習に頼りますが、適切に減少すると潜在的な利益を提供します。
敵のインセンティブに関する軽度の知識でさえ、潜在的な利益の程度が学習タスクの構造にどのように関連するかに依存することを示す一連の実験を実施します。
要約(オリジナル)
Adversarial training aims to defend against *adversaries*: malicious opponents whose sole aim is to harm predictive performance in any way possible – a rather harsh perspective, which we assert results in unnecessarily conservative models. Instead, we propose to model opponents as simply pursuing their own goals, rather than working directly against the classifier. Employing tools from strategic modeling, our approach uses knowledge or beliefs regarding the opponent’s possible incentives as inductive bias for learning. Our method of *strategic training* is designed to defend against opponents within an *incentive uncertainty set*: this resorts to adversarial learning when the set is maximal, but offers potential gains when it can be appropriately reduced. We conduct a series of experiments that show how even mild knowledge regarding the adversary’s incentives can be useful, and that the degree of potential gains depends on how incentives relate to the structure of the learning task.
arxiv情報
著者 | Maayan Ehrenberg,Roy Ganz,Nir Rosenfeld |
発行日 | 2025-02-24 18:14:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google