Backdoor for Debias: Mitigating Model Bias with Backdoor Attack-based Artificial Bias

要約

ディープラーニングの急速な発展により、社会のさまざまな場面で最先端のアルゴリズムが活用されています。
それにもかかわらず、一部のアルゴリズムにはバイアスがあり、不平等な結果が得られることが判明しています。
現在のバイアス除去方法は、データの活用が不十分であったり、トレーニング要件が複雑であるなどの課題に直面しています。
この研究では、バックドア攻撃が、標準的なトレーニングで得られるモデルのバイアスと同様の人為的なバイアスを構築できることがわかりました。
バックドア トリガーの強力な調整機能を考慮して、バックドア攻撃によって作成される逆人工バイアスを慎重に設計することで、モデル バイアスを軽減することに取り組んでいます。
これに基づいて、元のデータからモデルのバイアスを効果的に軽減し、バックドア攻撃によるセキュリティ リスクを最小限に抑える、知識の蒸留に基づくバックドアのバイアス除去フレームワークを提案します。
提案されたソリューションは画像と構造化データセットの両方で検証され、有望な結果が示されています。
この研究により、バックドア攻撃の理解が進み、有益なアプリケーションへの可能性が強調されます。
研究のコードは \url{https://anonymous.4open.science/r/DwB-BC07/} にあります。

要約(オリジナル)

With the swift advancement of deep learning, state-of-the-art algorithms have been utilized in various social situations. Nonetheless, some algorithms have been discovered to exhibit biases and provide unequal results. The current debiasing methods face challenges such as poor utilization of data or intricate training requirements. In this work, we found that the backdoor attack can construct an artificial bias similar to the model bias derived in standard training. Considering the strong adjustability of backdoor triggers, we are motivated to mitigate the model bias by carefully designing reverse artificial bias created from backdoor attack. Based on this, we propose a backdoor debiasing framework based on knowledge distillation, which effectively reduces the model bias from original data and minimizes security risks from the backdoor attack. The proposed solution is validated on both image and structured datasets, showing promising results. This work advances the understanding of backdoor attacks and highlights its potential for beneficial applications. The code for the study can be found at \url{https://anonymous.4open.science/r/DwB-BC07/}.

arxiv情報

著者 Shangxi Wu,Qiuyang He,Jian Yu,Jitao Sang
発行日 2024-07-01 03:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク