要約
検証された敵対的堅牢性についてネットワークをトレーニングするために、摂動領域にわたる最悪の場合の損失を過大近似することが一般的であり、その結果、標準的なパフォーマンスを犠牲にして検証可能性を達成するネットワークが得られます。
最近の研究で示されているように、敵対的トレーニングと過近似を慎重に組み合わせることで、精度と堅牢性の間のより良いトレードオフを得ることができます。
損失関数の表現力は、単一のパラメータ (過近似係数) を通じて、下限と上限の間のトレードオフの範囲から最悪の場合の損失までを網羅する能力として形式化されており、これが鍵となると仮説を立てています。
最先端のパフォーマンスを実現します。
私たちの仮説を裏付けるために、敵対的攻撃と IBP 境界の間の凸型の組み合わせによって得られる些細な表現的損失が、概念的な単純さにもかかわらず、さまざまな設定にわたって最先端の結果を生み出すことを示します。
さまざまな表現損失にわたる過近似係数とパフォーマンス プロファイルの関係を詳細に分析し、表現力は不可欠である一方で、最悪の場合の損失のより適切な近似が必ずしも優れたロバスト性と精度のトレードオフに関連しているわけではないことを示しています。
。
要約(オリジナル)
In order to train networks for verified adversarial robustness, it is common to over-approximate the worst-case loss over perturbation regions, resulting in networks that attain verifiability at the expense of standard performance. As shown in recent work, better trade-offs between accuracy and robustness can be obtained by carefully coupling adversarial training with over-approximations. We hypothesize that the expressivity of a loss function, which we formalize as the ability to span a range of trade-offs between lower and upper bounds to the worst-case loss through a single parameter (the over-approximation coefficient), is key to attaining state-of-the-art performance. To support our hypothesis, we show that trivial expressive losses, obtained via convex combinations between adversarial attacks and IBP bounds, yield state-of-the-art results across a variety of settings in spite of their conceptual simplicity. We provide a detailed analysis of the relationship between the over-approximation coefficient and performance profiles across different expressive losses, showing that, while expressivity is essential, better approximations of the worst-case loss are not necessarily linked to superior robustness-accuracy trade-offs.
arxiv情報
著者 | Alessandro De Palma,Rudy Bunel,Krishnamurthy Dvijotham,M. Pawan Kumar,Robert Stanforth,Alessio Lomuscio |
発行日 | 2024-03-14 16:20:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google