要約
マルチモーダル大手言語モデル(MLLMS)は、ユーザーがサビされたデータセットが汎用モデルをダウンストリームタスクに適合させる、微調整されたサービス(FTAAS)設定でますます展開されています。
ただし、この柔軟性は、悪意のある微調整が最小限の労力でバックドアをMLLMにインプラントすることができるため、深刻なセキュリティリスクをもたらします。
この論文では、バックドアトリガーが、非セマンチックな領域に異常な注意集中を引き起こすことにより、クロスモーダル処理を体系的に破壊することを観察します。
この洞察に基づいて、私たちはあなたの目(BYE)を信じています。それは、バックドアサンプルを識別およびフィルタリングするために、注意エントロピーパターンを自己補助信号として活用するデータフィルタリングフレームワークです。
さようならは、3段階のパイプラインを介して動作します。(1)微調整されたモデルを使用して注意マップを抽出し、(2)バイモーダル分離を介してエントロピースコアを計算し、敏感な層をプロファイリングし、(3)監視されていないクラスタリングを実行して疑わしいサンプルを除去します。
以前の防御とは異なり、Byeはクリーンな監督、補助ラベル、またはモデルの変更を排除しません。
さまざまなデータセット、モデル、多様なトリガータイプにわたる広範な実験は、Byeの有効性を検証します。クリーンタスクのパフォーマンスを維持しながら、ゼロに近い攻撃成功率を達成し、MLLMのバックドアの脅威に対する堅牢で一般化可能なソリューションを提供します。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) are increasingly deployed in fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt general-purpose models to downstream tasks. This flexibility, however, introduces serious security risks, as malicious fine-tuning can implant backdoors into MLLMs with minimal effort. In this paper, we observe that backdoor triggers systematically disrupt cross-modal processing by causing abnormal attention concentration on non-semantic regions–a phenomenon we term attention collapse. Based on this insight, we propose Believe Your Eyes (BYE), a data filtering framework that leverages attention entropy patterns as self-supervised signals to identify and filter backdoor samples. BYE operates via a three-stage pipeline: (1) extracting attention maps using the fine-tuned model, (2) computing entropy scores and profiling sensitive layers via bimodal separation, and (3) performing unsupervised clustering to remove suspicious samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary labels, or model modifications. Extensive experiments across various datasets, models, and diverse trigger types validate BYE’s effectiveness: it achieves near-zero attack success rates while maintaining clean-task performance, offering a robust and generalizable solution against backdoor threats in MLLMs.
arxiv情報
著者 | Xuankun Rong,Wenke Huang,Jian Liang,Jinhe Bi,Xun Xiao,Yiming Li,Bo Du,Mang Ye |
発行日 | 2025-05-22 17:11:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google