A Benchmark for Crime Surveillance Video Analysis with Large Models

要約

監視ビデオの異常分析は、コンピュータービジョンにおける重要なトピックです。
近年、マルチモーダル大手言語モデル(MLLM)は、さまざまなドメインでタスク固有のモデルよりも優れています。
MLLMは特に用途が広いものの、MLLMスタイルのQASとモデルのオープンエンドテキスト応答を評価するための効率的なアルゴリズムを提供していないこのフィールドの時代遅れのベンチマークのために、異常な概念と詳細を理解する能力が十分に研究されていません。
このギャップを埋めるために、UCVLとして示された大規模なモデルを使用して、1,829個のビデオとUCF犯罪およびUCF犯罪注釈データセットからの再編成注釈を含む、犯罪監視ビデオ分析のベンチマークを提案します。
6種類の質問を設計し、多様なQAペアを生成します。
次に、詳細な指示を作成し、正確な評価のためにOpenAIのGPT-4Oを使用します。
0.5Bから40Bのパラメーターの範囲の8つの一般的なMLLMをベンチマークし、結果がこのベンチの信頼性を示しています。
さらに、UCVLのトレーニングセットでllava-nevisionをFintuneします。
この改善は、ビデオの異常分析のためにデータの高品質を検証します。

要約(オリジナル)

Anomaly analysis in surveillance videos is a crucial topic in computer vision. In recent years, multimodal large language models (MLLMs) have outperformed task-specific models in various domains. Although MLLMs are particularly versatile, their abilities to understand anomalous concepts and details are insufficiently studied because of the outdated benchmarks of this field not providing MLLM-style QAs and efficient algorithms to assess the model’s open-ended text responses. To fill this gap, we propose a benchmark for crime surveillance video analysis with large models denoted as UCVL, including 1,829 videos and reorganized annotations from the UCF-Crime and UCF-Crime Annotation datasets. We design six types of questions and generate diverse QA pairs. Then we develop detailed instructions and use OpenAI’s GPT-4o for accurate assessment. We benchmark eight prevailing MLLMs ranging from 0.5B to 40B parameters, and the results demonstrate the reliability of this bench. Moreover, we finetune LLaVA-OneVision on UCVL’s training set. The improvement validates our data’s high quality for video anomaly analysis.

arxiv情報

著者 Haoran Chen,Dong Yi,Moyan Cao,Chensen Huang,Guibo Zhu,Jinqiao Wang
発行日 2025-02-13 13:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Benchmark for Crime Surveillance Video Analysis with Large Models はコメントを受け付けていません

Image and Point-cloud Classification for Jet Analysis in High-Energy Physics: A survey

要約

現在、機械学習(ML)と専門分野であるディープラーニング(DL)を組み込むために、高エネルギー物理学(HEP)の分野(HEP)の分野で成長する傾向がありました。
このレビューペーパーでは、さまざまなMLおよびDLアプローチを使用したこれらのアプリケーションの徹底的な図を提供します。
論文の最初の部分では、さまざまな粒子物理学タイプの基本を調べ、利用可能な学習モデルとともに粒子物理学を評価するためのガイドラインを確立します。
次に、主に明確に定義されたビームエネルギーでのプロトンプロトン衝突で、高エネルギーの衝突で再構築されるジェットを表すための詳細な分類が提供されます。
このセクションでは、さまざまなデータセット、前処理技術、機能抽出および選択方法について説明します。
提示された手法は、高光度LHC(HL-LHC)や将来の円形コリダー-Hadron-Hadron(FCCHH)など、将来のHadron-Hadron Colliders(HHC)に適用できます。
次に、著者は、HEPの画像とPoint-Cloud(PC)データの両方に特化したいくつかのAI技術分析を探索します。
さらに、ハドロンの衝突におけるジェットタグ付けに関連する分類をよく見ることができます。
このレビューでは、MLおよびDLのさまざまな最先端(SOTA)技術を調べ、HEP需要への影響に焦点を当てています。
より正確には、このディスカッションでは、ジェットタグ付け、ジェットトラッキング、粒子分類など、さまざまなアプリケーションに幅広い詳細を扱っています。
レビューは、DL方法論を使用したHEPの現在の状態の分析とともに終了します。
それは、各アプリケーションに示されている将来の研究の課題と潜在的な分野を強調しています。

要約(オリジナル)

Nowadays, there has been a growing trend in the field of high-energy physics (HEP), in both its experimental and phenomenological studies, to incorporate machine learning (ML) and its specialized branch, deep learning (DL). This review paper provides a thorough illustration of these applications using different ML and DL approaches. The first part of the paper examines the basics of various particle physics types and establishes guidelines for assessing particle physics alongside the available learning models. Next, a detailed classification is provided for representing Jets that are reconstructed in high-energy collisions, mainly in proton-proton collisions at well-defined beam energies. This section covers various datasets, preprocessing techniques, and feature extraction and selection methods. The presented techniques can be applied to future hadron-hadron colliders (HHC), such as the high-luminosity LHC (HL-LHC) and the future circular collider – hadron-hadron (FCChh). The authors then explore several AI techniques analyses designed specifically for both image and point-cloud (PC) data in HEP. Additionally, a closer look is taken at the classification associated with Jet tagging in hadron collisions. In this review, various state-of-the-art (SOTA) techniques in ML and DL are examined, with a focus on their implications for HEP demands. More precisely, this discussion addresses various applications in extensive detail, such as Jet tagging, Jet tracking, particle classification, and more. The review concludes with an analysis of the current state of HEP using DL methodologies. It highlights the challenges and potential areas for future research, which are illustrated for each application.

arxiv情報

著者 Hamza Kheddar,Yassine Himeur,Abbes Amira,Rachik Soualah
発行日 2025-02-13 14:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, hep-ex, hep-ph | Image and Point-cloud Classification for Jet Analysis in High-Energy Physics: A survey はコメントを受け付けていません

Wasserstein distributional adversarial training for deep neural networks

要約

深いニューラルネットワークに対する敵対的な攻撃の設計、およびそれらに対する敵対的な訓練の方法は、激しい研究の対象です。
この論文では、流通攻撃の脅威に反して訓練する方法を提案し、ポイントワイズ攻撃に使用される取引方法を延長します。
私たちのアプローチは、最近の貢献を活用しており、ワッサースタインの分布的に堅牢な最適化の問題の感度分析に依存しています。
以前に訓練されたモデルに展開できる効率的な微調整方法を紹介します。
RobustBenchで、さまざまな訓練を受けたモデルの範囲でメソッドをテストします。
これらの実験結果は、すでに非常に成功しているネットワークであっても、ポイントワイズの堅牢性の元のレベルを維持しながら、追加のトレーニングがワッサースタイン分布の堅牢性を高めることを示しています。
20〜100mの画像の巨大な合成データセットを使用して、事前に訓練されたモデルでは、改善はあまりマークされていません。
ただし、驚くべきことに、元のトレーニングデータセット(50K画像)のみを使用してトレーニングを受けた場合でも、方法がパフォーマンスを改善できる場合があります。

要約(オリジナル)

Design of adversarial attacks for deep neural networks, as well as methods of adversarial training against them, are subject of intense research. In this paper, we propose methods to train against distributional attack threats, extending the TRADES method used for pointwise attacks. Our approach leverages recent contributions and relies on sensitivity analysis for Wasserstein distributionally robust optimization problems. We introduce an efficient fine-tuning method which can be deployed on a previously trained model. We test our methods on a range of pre-trained models on RobustBench. These experimental results demonstrate the additional training enhances Wasserstein distributional robustness, while maintaining original levels of pointwise robustness, even for already very successful networks. The improvements are less marked for models pre-trained using huge synthetic datasets of 20-100M images. However, remarkably, sometimes our methods are still able to improve their performance even when trained using only the original training dataset (50k images).

arxiv情報

著者 Xingjian Bai,Guangyi He,Yifan Jiang,Jan Obloj
発行日 2025-02-13 14:18:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, math.OC | Wasserstein distributional adversarial training for deep neural networks はコメントを受け付けていません

CANeRV: Content Adaptive Neural Representation for Video Compression

要約

ビデオ圧縮の最近の進歩は、ビデオシーケンス全体のグローバルな依存関係と特性を効果的にキャプチャする暗黙の神経表現(INR)ベースの方法を導入します。
従来の学習ベースのアプローチとは異なり、INRベースの方法は、グローバルな観点からネットワークパラメーターを最適化するため、優れた圧縮の可能性をもたらします。
ただし、現在のINRメソッドのほとんどは、すべてのフレームにわたって固定された均一なネットワークアーキテクチャを利用しており、ビデオシーケンス内およびビデオシーケンス間の動的バリエーションへの適応性を制限しています。
これらの方法は、ビデオコンテンツの明確なニュアンスと遷移をキャプチャするのに苦労するため、これはしばしば最適ではない圧縮結果につながります。
これらの課題を克服するために、各ビデオシーケンスの特定のコンテンツに基づいて構造最適化を適応的に実施する革新的なINRベースのビデオ圧縮ネットワークであるビデオ圧縮(CANERV)のコンテンツ適応ニューラル表現を提案します。
ビデオシーケンス全体で動的情報をより適切にキャプチャするために、動的シーケンスレベルの調整(DSA)を提案します。
さらに、シーケンス内のフレーム間のダイナミクスのキャプチャを強化するために、動的フレームレベルの調整(DFA)を実装します。
{最後に、ビデオフレーム内の空間構造情報を効果的にキャプチャし、それによりCanervの詳細回復機能を強化するために、構造レベルの階層構造適応(HSA)を考案します。}実験結果は、CanervがH.266/VVCと状態の両方を上回ることができることを示しています
– 多様なビデオデータセット全体の最大のINRベースのビデオ圧縮技術。

要約(オリジナル)

Recent advances in video compression introduce implicit neural representation (INR) based methods, which effectively capture global dependencies and characteristics of entire video sequences. Unlike traditional and deep learning based approaches, INR-based methods optimize network parameters from a global perspective, resulting in superior compression potential. However, most current INR methods utilize a fixed and uniform network architecture across all frames, limiting their adaptability to dynamic variations within and between video sequences. This often leads to suboptimal compression outcomes as these methods struggle to capture the distinct nuances and transitions in video content. To overcome these challenges, we propose Content Adaptive Neural Representation for Video Compression (CANeRV), an innovative INR-based video compression network that adaptively conducts structure optimisation based on the specific content of each video sequence. To better capture dynamic information across video sequences, we propose a dynamic sequence-level adjustment (DSA). Furthermore, to enhance the capture of dynamics between frames within a sequence, we implement a dynamic frame-level adjustment (DFA). {Finally, to effectively capture spatial structural information within video frames, thereby enhancing the detail restoration capabilities of CANeRV, we devise a structure level hierarchical structural adaptation (HSA).} Experimental results demonstrate that CANeRV can outperform both H.266/VVC and state-of-the-art INR-based video compression techniques across diverse video datasets.

arxiv情報

著者 Lv Tang,Jun Zhu,Xinfeng Zhang,Li Zhang,Siwei Ma,Qingming Huang
発行日 2025-02-13 14:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CANeRV: Content Adaptive Neural Representation for Video Compression はコメントを受け付けていません

Galileo: Learning Global and Local Features in Pretrained Remote Sensing Models

要約

作物のマッピングから洪水の検出まで、リモートセンシングの機械学習には、社会的に有益なアプリケーションの幅広いアプリケーションがあります。
これらのアプリケーションでのリモートセンシングデータ間の共通性は、リモートセンシングに合わせて調整された前提条件の機械学習モデルの機会を提供し、個々のタスクを解決するために必要なラベル付きデータと努力を削減します。
ただし、そのようなモデルは次のものでなければなりません。(i)さまざまなセンサーのモダリティと形状(つまり、さまざまな空間的および時間的寸法の)の入力データを摂取するのに十分な柔軟性、および(ii)さまざまなスケールとタイプの地球表面現象をモデル化できる。
このギャップを解決するために、マルチモーダルのリモートセンシングデータを柔軟に処理するように設計された、前処理されたリモートセンシングモデルのファミリーであるGalileoを紹介します。
また、以前のモデルでは対処されていない課題である、大規模および小規模な機能の両方を学ぶために、斬新で非常に効果的な自己監視学習アプローチを紹介します。
ガリレオモデルは、多様なリモートセンシングタスク全体で最先端の結果を得ています。

要約(オリジナル)

From crop mapping to flood detection, machine learning in remote sensing has a wide range of societally beneficial applications. The commonalities between remote sensing data in these applications present an opportunity for pretrained machine learning models tailored to remote sensing to reduce the labeled data and effort required to solve individual tasks. However, such models must be: (i) flexible enough to ingest input data of varying sensor modalities and shapes (i.e., of varying spatial and temporal dimensions), and (ii) able to model Earth surface phenomena of varying scales and types. To solve this gap, we present Galileo, a family of pretrained remote sensing models designed to flexibly process multimodal remote sensing data. We also introduce a novel and highly effective self-supervised learning approach to learn both large- and small-scale features, a challenge not addressed by previous models. Our Galileo models obtain state-of-the-art results across diverse remote sensing tasks.

arxiv情報

著者 Gabriel Tseng,Anthony Fuller,Marlena Reil,Henry Herzog,Patrick Beukema,Favyen Bastani,James R. Green,Evan Shelhamer,Hannah Kerner,David Rolnick
発行日 2025-02-13 14:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Galileo: Learning Global and Local Features in Pretrained Remote Sensing Models はコメントを受け付けていません

Illegal Waste Detection in Remote Sensing Images: A Case Study

要約

環境犯罪は現在、世界で3番目に大きい犯罪行為を表し、生態系と人間の健康を脅かしています。
この活動に関連する犯罪の中で、不適切な廃棄物管理は、違法な埋め立て地を求めて半自動領土スキャンを可能にする非常に高解像度のリモートセンシング画像の利用可能性とコストの削減により、現在、より簡単に対抗することができます。
このペーパーでは、地元の環境機関の専門家と協力して開発されたパイプラインを提案し、候補者がリモートセンシング画像の分類子を活用する違法な投棄サイトを検出しました。
このような分類器に最適な構成を識別するために、広範な一連の実験が実施され、多様な画像特性とトレーニング設定の影響が徹底的に分析されました。
その後、地元の環境機関は、開発された分類器からの出力が専門家の日常業務に統合された実験演習に関与し、手動の写真解釈に関して時間の節約をもたらしました。
最終的に分類器は、トレーニングエリアの外側の場所で貴重な結果で実行され、提案されたパイプラインの国境を越えた適用可能性の可能性を強調しました。

要約(オリジナル)

Environmental crime currently represents the third largest criminal activity worldwide while threatening ecosystems as well as human health. Among the crimes related to this activity, improper waste management can nowadays be countered more easily thanks to the increasing availability and decreasing cost of Very-High-Resolution Remote Sensing images, which enable semi-automatic territory scanning in search of illegal landfills. This paper proposes a pipeline, developed in collaboration with professionals from a local environmental agency, for detecting candidate illegal dumping sites leveraging a classifier of Remote Sensing images. To identify the best configuration for such classifier, an extensive set of experiments was conducted and the impact of diverse image characteristics and training settings was thoroughly analyzed. The local environmental agency was then involved in an experimental exercise where outputs from the developed classifier were integrated in the experts’ everyday work, resulting in time savings with respect to manual photo-interpretation. The classifier was eventually run with valuable results on a location outside of the training area, highlighting potential for cross-border applicability of the proposed pipeline.

arxiv情報

著者 Federico Gibellini,Piero Fraternali,Giacomo Boracchi,Luca Morandini,Andrea Diecidue,Simona Malegori
発行日 2025-02-13 14:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Illegal Waste Detection in Remote Sensing Images: A Case Study はコメントを受け付けていません

Enhance-A-Video: Better Generated Video for Free

要約

DITベースのビデオ生成は顕著な結果を達成しましたが、既存のモデルの強化に関する研究は比較的未開拓のままです。
この作業では、DITベースの生成されたビデオのコヒーレンスと品質を強化するためのトレーニングなしのアプローチを紹介します。
核となるアイデアは、非対角の時間的注意分布に基づいて、クロスフレーム相関を強化することです。
そのシンプルなデザインのおかげで、私たちのアプローチは、再訓練や微調整なしで、ほとんどのDITベースのビデオ生成フレームワークに簡単に適用できます。
さまざまなDITベースのビデオ生成モデルで、私たちのアプローチは、時間的一貫性と視覚品質の両方の有望な改善を示しています。
この研究が、ビデオ生成の強化における将来の探求を刺激することを願っています。

要約(オリジナル)

DiT-based video generation has achieved remarkable results, but research into enhancing existing models remains relatively unexplored. In this work, we introduce a training-free approach to enhance the coherence and quality of DiT-based generated videos, named Enhance-A-Video. The core idea is enhancing the cross-frame correlations based on non-diagonal temporal attention distributions. Thanks to its simple design, our approach can be easily applied to most DiT-based video generation frameworks without any retraining or fine-tuning. Across various DiT-based video generation models, our approach demonstrates promising improvements in both temporal consistency and visual quality. We hope this research can inspire future explorations in video generation enhancement.

arxiv情報

著者 Yang Luo,Xuanlei Zhao,Mengzhao Chen,Kaipeng Zhang,Wenqi Shao,Kai Wang,Zhangyang Wang,Yang You
発行日 2025-02-13 15:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhance-A-Video: Better Generated Video for Free はコメントを受け付けていません

ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

要約

拡散モデルにより、高品質で多様な視覚コンテンツの合成が可能になります。
しかし、彼らはまれまたは目に見えない概念を生み出すのに苦労しています。
この課題に対処するために、画像生成モデルを使用した検索された生成(RAG)の使用について調査します。
Imageragを提案します。これは、特定のテキストプロンプトに基づいて関連する画像を動的に取得し、それらをコンテキストとして使用して生成プロセスをガイドする方法を提案します。
検索された画像を使用して生成を改善する以前のアプローチ、検索ベースの生成専用に訓練されたモデル。
対照的に、Imageragは既存の画像コンディショニングモデルの機能を活用しており、RAG固有のトレーニングを必要としません。
私たちのアプローチは非常に適応性があり、さまざまなモデルタイプにわたって適用でき、異なるベースモデルを使用して、まれで微調整された概念を生成する際の大幅な改善を示しています。
プロジェクトページは、https://rotem-shalev.github.io/imageragで入手できます

要約(オリジナル)

Diffusion models enable high-quality and diverse visual content synthesis. However, they struggle to generate rare or unseen concepts. To address this challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with image generation models. We propose ImageRAG, a method that dynamically retrieves relevant images based on a given text prompt, and uses them as context to guide the generation process. Prior approaches that used retrieved images to improve generation, trained models specifically for retrieval-based generation. In contrast, ImageRAG leverages the capabilities of existing image conditioning models, and does not require RAG-specific training. Our approach is highly adaptable and can be applied across different model types, showing significant improvement in generating rare and fine-grained concepts using different base models. Our project page is available at: https://rotem-shalev.github.io/ImageRAG

arxiv情報

著者 Rotem Shalev-Arkushin,Rinon Gal,Amit H. Bermano,Ohad Fried
発行日 2025-02-13 15:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation はコメントを受け付けていません

Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Vision-Language-Action Learning

要約

多様なロボットデータセットで前提とされた最近の大きなビジョン言語アクションモデルは、いくつかのドメインデータを使用して新しい環境に一般化する可能性を実証しています。
ただし、これらのアプローチは通常、小さなアクションヘッドによって個々の離散化または連続的なアクションを予測します。これにより、多様なアクションスペースの処理能力が制限されます。
対照的に、拡散トランスポリシーと呼ばれる大きなマルチモーダル拡散トランスで連続作用シーケンスをモデル化します。このポリシーでは、アクションの埋め込みのための小さなアクションヘッドではなく、大規模なトランスモデルによって作用チャンクを直接除去します。
トランスのスケーリング機能を活用することにより、提案されたアプローチは、大規模な多様なロボットデータセット全体で連続エンドエフェクターアクションを効果的にモデル化し、より良い一般化パフォーマンスを実現できます。
広範な実験は、Maniskill2、Libero、Calvin、Simplerenvの拡散トランスポリシーの有効性と一般化を実証し、実世界のフランカアームと同様に、現実のベンチマークSimplerenv、現実世界のフランカアーム、リベロで一貫したパフォーマンスを達成します
OpenVlaとOctoと比較してください。
具体的には、ベルとホイッスルなしでは、提案されたアプローチは、CalvinタスクABC-> Dに1つのサードビューカメラストリームのみで最先端のパフォーマンスを実現し、5列に記入されたタスクの平均数を改善します。
3.6、および事前トレーニングステージは、カルバンの成功シーケンスの長さを1.2以上容易に促進します。
プロジェクトページ:https://zhihou7.github.io/dit_policy_vla/

要約(オリジナル)

Recent large vision-language action models pretrained on diverse robot datasets have demonstrated the potential for generalizing to new environments with a few in-domain data. However, those approaches usually predict individual discretized or continuous action by a small action head, which limits the ability in handling diverse action spaces. In contrast, we model the continuous action sequence with a large multi-modal diffusion transformer, dubbed as Diffusion Transformer Policy, in which we directly denoise action chunks by a large transformer model rather than a small action head for action embedding. By leveraging the scaling capability of transformers, the proposed approach can effectively model continuous end-effector actions across large diverse robot datasets, and achieve better generalization performance. Extensive experiments demonstrate the effectiveness and generalization of Diffusion Transformer Policy on Maniskill2, Libero, Calvin and SimplerEnv, as well as the real-world Franka arm, achieving consistent better performance on Real-to-Sim benchmark SimplerEnv, real-world Franka Arm and Libero compared to OpenVLA and Octo. Specifically, without bells and whistles, the proposed approach achieves state-of-the-art performance with only a single third-view camera stream in the Calvin task ABC->D, improving the average number of tasks completed in a row of 5 to 3.6, and the pretraining stage significantly facilitates the success sequence length on the Calvin by over 1.2. Project Page: https://zhihou7.github.io/dit_policy_vla/

arxiv情報

著者 Zhi Hou,Tianyi Zhang,Yuwen Xiong,Hengjun Pu,Chengyang Zhao,Ronglei Tong,Yu Qiao,Jifeng Dai,Yuntao Chen
発行日 2025-02-13 15:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Vision-Language-Action Learning はコメントを受け付けていません

ADBM: Adversarial diffusion bridge model for reliable adversarial purification

要約

最近、拡散ベースの精製(拡散)は、敵対例に対する効果的な防御方法として認識されています。
ただし、元の訓練を受けた拡散モデルを敵対的浄化のために直接採用している拡散は、最適ではないことがわかります。
これは、ノイズ浄化のパフォーマンスとデータ回復の質との固有のトレードオフによるものです。
さらに、弱い適応攻撃に依存しているため、既存の評価の信頼性は疑わしいです。
この作業では、ADBMと呼ばれる新しい敵対的な拡散ブリッジモデルを提案します。
ADBMは、拡散した敵対的なデータから元のクリーンな例に戻る逆橋を直接構築し、元の拡散モデルの精製能力を高めます。
さまざまなシナリオにわたる理論分析と実験的検証を通じて、ADBMは優れた堅牢な防御メカニズムであることが証明されており、実用的なアプリケーションに大きな約束を提供しています。

要約(オリジナル)

Recently Diffusion-based Purification (DiffPure) has been recognized as an effective defense method against adversarial examples. However, we find DiffPure which directly employs the original pre-trained diffusion models for adversarial purification, to be suboptimal. This is due to an inherent trade-off between noise purification performance and data recovery quality. Additionally, the reliability of existing evaluations for DiffPure is questionable, as they rely on weak adaptive attacks. In this work, we propose a novel Adversarial Diffusion Bridge Model, termed ADBM. ADBM directly constructs a reverse bridge from the diffused adversarial data back to its original clean examples, enhancing the purification capabilities of the original diffusion models. Through theoretical analysis and experimental validation across various scenarios, ADBM has proven to be a superior and robust defense mechanism, offering significant promise for practical applications.

arxiv情報

著者 Xiao Li,Wenxuan Sun,Huanran Chen,Qiongxiu Li,Yining Liu,Yingzhe He,Jie Shi,Xiaolin Hu
発行日 2025-02-13 15:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | ADBM: Adversarial diffusion bridge model for reliable adversarial purification はコメントを受け付けていません