SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking

要約

既存のクエリベースの3Dエンドツーエンドのビジュアルトラッカーは、追跡ごとのパラダイムを介して検出と追跡を統合しますが、これら2つの鶏と卵のタスクは、同じパラメーターを共有するときに最適化の困難に遭遇します。
私たちの調査結果は、これらの困難が、自己触媒メカニズムに対する2つの固有の制約、つまりオブジェクトクエリの過剰な複製とトラッククエリの自己中心的な注意により発生することを明らかにしています。
対照的に、自己関節メカニズムを削除することは、トラッカーの回帰予測に最小限に影響するだけでなく、より潜在的な候補ボックスを生成する傾向があります。
これらの分析に基づいて、検出と追跡のためにマルチタスク学習を共同設定するために設計された新しいプラグアンドプレイの相乗的トレーニング戦略であるSynclを提示します。
具体的には、複数のオブジェクトクエリを使用してトラッククエリのターゲットと一致する重量共有クロスアテンションベースのデコーダーのタスク固有のハイブリッドマッチングモジュールを提案して、自己攻撃メカニズムを見落としている有望な候補を活用します。
1対多くのマッチングの最適な候補を柔軟に選択するために、モデルトレーニングステータスによって制御される動的クエリフィルタリングモジュールも設計します。
さらに、トラッククエリの自己中心的な注意の障壁を突破し、検出と追跡の間のギャップを効果的に埋めるために、インスタンスを意識した対照的な学習を紹介します。
追加の推論コストなしでは、Synclは一貫してさまざまなベンチマークの改善を提供し、Nuscenesデータセットで58.9%\%$ amotaで最先端のパフォーマンスを達成します。
コードと生の結果は公開されます。

要約(オリジナル)

While existing query-based 3D end-to-end visual trackers integrate detection and tracking via the tracking-by-attention paradigm, these two chicken-and-egg tasks encounter optimization difficulties when sharing the same parameters. Our findings reveal that these difficulties arise due to two inherent constraints on the self-attention mechanism, i.e., over-deduplication for object queries and self-centric attention for track queries. In contrast, removing the self-attention mechanism not only minimally impacts regression predictions of the tracker, but also tends to generate more latent candidate boxes. Based on these analyses, we present SynCL, a novel plug-and-play synergistic training strategy designed to co-facilitate multi-task learning for detection and tracking. Specifically, we propose a Task-specific Hybrid Matching module for a weight-shared cross-attention-based decoder that matches the targets of track queries with multiple object queries to exploit promising candidates overlooked by the self-attention mechanism. To flexibly select optimal candidates for the one-to-many matching, we also design a Dynamic Query Filtering module controlled by model training status. Moreover, we introduce Instance-aware Contrastive Learning to break through the barrier of self-centric attention for track queries, effectively bridging the gap between detection and tracking. Without additional inference costs, SynCL consistently delivers improvements in various benchmarks and achieves state-of-the-art performance with $58.9\%$ AMOTA on the nuScenes dataset. Code and raw results will be publicly available.

arxiv情報

著者 Shubo Lin,Yutong Kou,Zirui Wu,Shaoru Wang,Bing Li,Weiming Hu,Jin Gao
発行日 2025-05-16 13:24:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking はコメントを受け付けていません

AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition

要約

輝度が高い時間分解能で変化するイベントカメラは、本質的に重要なオブジェクト構造を超えてかなりの量の冗長でノイズの多いデータを生成します。
イベントベースのオブジェクト認識の主な課題は、重要な空間的情報を失うことなく、このノイズを効果的に除去することにあります。
これに対処するために、イベントベースのオブジェクト認識のための適応グラフベースのノイズの多いデータ削除フレームワークを提案します。
具体的には、私たちのアプローチは、正規化された密度分析、多因子エッジ重視メカニズム、および適応型グラフベースの除去戦略に基づいて、適応イベントセグメンテーションを統合します。
これらの革新は、時空間情報の統合を大幅に強化し、堅牢な認識のために重要な構造的特徴を維持しながら、ノイズを効果的にフィルタリングします。
4つの挑戦的なデータセットでの実験的評価は、私たちの方法が83.77%、76.79%、99.30%、および96.89%の優れた認識精度を達成し、既存のグラフベースの方法を最大8.79%上回り、騒音低減パフォーマンスを最大19.57%上回り、従来のユーークリディアンの技術を比較して6.26%の精度を獲得することを示しています。

要約(オリジナル)

Event cameras, which capture brightness changes with high temporal resolution, inherently generate a significant amount of redundant and noisy data beyond essential object structures. The primary challenge in event-based object recognition lies in effectively removing this noise without losing critical spatial-temporal information. To address this, we propose an Adaptive Graph-based Noisy Data Removal framework for Event-based Object Recognition. Specifically, our approach integrates adaptive event segmentation based on normalized density analysis, a multifactorial edge-weighting mechanism, and adaptive graph-based denoising strategies. These innovations significantly enhance the integration of spatiotemporal information, effectively filtering noise while preserving critical structural features for robust recognition. Experimental evaluations on four challenging datasets demonstrate that our method achieves superior recognition accuracies of 83.77%, 76.79%, 99.30%, and 96.89%, surpassing existing graph-based methods by up to 8.79%, and improving noise reduction performance by up to 19.57%, with an additional accuracy gain of 6.26% compared to traditional Euclidean-based techniques.

arxiv情報

著者 Haiyu Li,Charith Abhayaratne
発行日 2025-05-16 13:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition はコメントを受け付けていません

Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models

要約

拡散モデルは画像生成に大きな進歩を遂げていますが、大規模でフィルタリングされていないデータセットで訓練されたモデルは、しばしば人間の好みと誤った整列された出力をもたらします。
事前に訓練された拡散モデルを微調整するための多くの方法が提案されており、生成された出力を人間の好みに合わせて顕著な改善を達成しています。
ただし、既存の優先順位アラインメント方法は、無条件/負の条件の出力を処理するという重要な役割を無視し、望ましくない結果の生成を避ける能力が低下すると主張します。
この監視は、条件付き生成と無条件/負の生成のコントラストに依存して、出力品質を最適化するために条件付き生成と無条件/負の生成の有効性を制限します。
これに応じて、ネガティブな好みに特化したモデルをトレーニングすることを含む、単純だが多用途の効果的なアプローチを提案します。
この方法では、新しいトレーニング戦略やデータセットは必要ありませんが、既存の手法の軽微な変更を伴います。
私たちのアプローチは、SD1.5、SDXL、ビデオ拡散モデル、好みの最適化を受けたモデルなどのモデルとシームレスに統合し、人間の好みとの整合性を一貫して強化します。

要約(オリジナル)

Diffusion models have made substantial advances in image generation, yet models trained on large, unfiltered datasets often yield outputs misaligned with human preferences. Numerous methods have been proposed to fine-tune pre-trained diffusion models, achieving notable improvements in aligning generated outputs with human preferences. However, we argue that existing preference alignment methods neglect the critical role of handling unconditional/negative-conditional outputs, leading to a diminished capacity to avoid generating undesirable outcomes. This oversight limits the efficacy of classifier-free guidance~(CFG), which relies on the contrast between conditional generation and unconditional/negative-conditional generation to optimize output quality. In response, we propose a straightforward but versatile effective approach that involves training a model specifically attuned to negative preferences. This method does not require new training strategies or datasets but rather involves minor modifications to existing techniques. Our approach integrates seamlessly with models such as SD1.5, SDXL, video diffusion models and models that have undergone preference optimization, consistently enhancing their alignment with human preferences.

arxiv情報

著者 Fu-Yun Wang,Yunhao Shui,Jingtan Piao,Keqiang Sun,Hongsheng Li
発行日 2025-05-16 13:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models はコメントを受け付けていません

Entropy-Driven Genetic Optimization for Deep-Feature-Guided Low-Light Image Enhancement

要約

画像強化方法は、多くの場合、ピクセルレベルの情報を優先し、セマンティック機能を見下ろします。
画像の明るさ、コントラスト、およびガンマパラメーターを最適化して視覚品質とセマンティックの忠実度のバランスをとる、NSGA-IIアルゴリズムによって導かれる、監視されていない、ファジーに触発された画像強化フレームワークを提案します。
提案された方法の中心は、特徴抽出器として事前に訓練されたディープニューラルネットワークを使用することです。
最適な拡張設定を見つけるために、複数の目的のバランスをとるGPUアクセラル化NSGA-IIアルゴリズムを使用します。つまり、画像エントロピーの増加、知覚の類似性の向上、適切な明るさの維持を使用します。
さらに、現地の検索フェーズを適用して、遺伝的アルゴリズムから上位候補者を微調整することにより、結果を改善します。
私たちのアプローチは、ペアリングされたトレーニングデータなしで完全に動作し、限られたラベルまたはノイズの多いラベルを持つドメインに広く適用されます。
定量的に、私たちのモデルは、すべての対応のないデータセットで、それぞれ平均19.82と3.652の平均ブリスクスコアとNiqeスコアで優れたパフォーマンスを達成します。
定性的に、私たちのモデルによる強化された画像は、影のある領域での視界、コントラストの自然なバランスを大幅に改善し、顕著なアーティファクトを導入することなく、より豊かな細部を維持します。
この作業は、セマンティックの一貫性が重要である監視されていない画像強化のための新しい方向を開きます。

要約(オリジナル)

Image enhancement methods often prioritize pixel level information, overlooking the semantic features. We propose a novel, unsupervised, fuzzy-inspired image enhancement framework guided by NSGA-II algorithm that optimizes image brightness, contrast, and gamma parameters to achieve a balance between visual quality and semantic fidelity. Central to our proposed method is the use of a pre trained deep neural network as a feature extractor. To find the best enhancement settings, we use a GPU-accelerated NSGA-II algorithm that balances multiple objectives, namely, increasing image entropy, improving perceptual similarity, and maintaining appropriate brightness. We further improve the results by applying a local search phase to fine-tune the top candidates from the genetic algorithm. Our approach operates entirely without paired training data making it broadly applicable across domains with limited or noisy labels. Quantitatively, our model achieves excellent performance with average BRISQUE and NIQE scores of 19.82 and 3.652, respectively, in all unpaired datasets. Qualitatively, enhanced images by our model exhibit significantly improved visibility in shadowed regions, natural balance of contrast and also preserve the richer fine detail without introducing noticable artifacts. This work opens new directions for unsupervised image enhancement where semantic consistency is critical.

arxiv情報

著者 Nirjhor Datta,Afroza Akther,M. Sohel Rahman
発行日 2025-05-16 13:40:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Entropy-Driven Genetic Optimization for Deep-Feature-Guided Low-Light Image Enhancement はコメントを受け付けていません

DRAGON: A Large-Scale Dataset of Realistic Images Generated by Diffusion Models

要約

画像生成のために拡散モデルの顕著な使いやすさにより、オンラインで合成コンテンツが急増しました。
これらのモデルはしばしば正当な目的で採用されていますが、誤った情報やヘイトスピーチをサポートする偽の画像を生成するためにも使用されます。
その結果、そのようなモデルによって画像が生成されたかどうかを検出できる堅牢なツールを開発することが重要です。
ただし、多くの現在の検出方法には、トレーニングに大量のサンプル画像が必要です。
残念ながら、フィールドの急速な進化により、既存のデータセットはしばしば限られた範囲のモデルのみをカバーし、すぐに時代遅れになります。
この作業では、25の拡散モデルからの画像を含む包括的なデータセットであるDragonを紹介し、最近の進歩と古い、確立されたアーキテクチャの両方に及びます。
データセットには、多様な被験者を表すさまざまな画像が含まれています。
画像のリアリズムを強化するために、標準的な品質メトリックの改善によって証明されるように、大規模な言語モデルを活用して入力プロンプトを拡張し、より多様で高品質の出力を生成するシンプルで効果的なパイプラインを提案します。
データセットは、さまざまな研究シナリオを伴うために、複数のサイズ(非常に小さい範囲から大規模なものまで)で提供されます。
Dragonは、合成含有量の検出および帰属技術の開発と評価において、法医学コミュニティをサポートするように設計されています。
さらに、データセットには、新しく開発された方法のパフォーマンスを評価するためのベンチマークとして機能することを目的とした専用のテストセットが添付されています。

要約(オリジナル)

The remarkable ease of use of diffusion models for image generation has led to a proliferation of synthetic content online. While these models are often employed for legitimate purposes, they are also used to generate fake images that support misinformation and hate speech. Consequently, it is crucial to develop robust tools capable of detecting whether an image has been generated by such models. Many current detection methods, however, require large volumes of sample images for training. Unfortunately, due to the rapid evolution of the field, existing datasets often cover only a limited range of models and quickly become outdated. In this work, we introduce DRAGON, a comprehensive dataset comprising images from 25 diffusion models, spanning both recent advancements and older, well-established architectures. The dataset contains a broad variety of images representing diverse subjects. To enhance image realism, we propose a simple yet effective pipeline that leverages a large language model to expand input prompts, thereby generating more diverse and higher-quality outputs, as evidenced by improvements in standard quality metrics. The dataset is provided in multiple sizes (ranging from extra-small to extra-large) to accomodate different research scenarios. DRAGON is designed to support the forensic community in developing and evaluating detection and attribution techniques for synthetic content. Additionally, the dataset is accompanied by a dedicated test set, intended to serve as a benchmark for assessing the performance of newly developed methods.

arxiv情報

著者 Giulia Bertazzini,Daniele Baracchi,Dasara Shullani,Isao Echizen,Alessandro Piva
発行日 2025-05-16 13:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DRAGON: A Large-Scale Dataset of Realistic Images Generated by Diffusion Models はコメントを受け付けていません

Multi-view dense image matching with similarity learning and geometry priors

要約

マルチビューの類似性学習のために設計された深いニューラルネットワークの包括的なスイートであるMV-Deepsimnetsを紹介し、トレーニング用のエピポラージオメトリを活用します。
私たちのアプローチには、エピポーララインに沿って、またはホモグラフィーの修正を通じて、ピクセルの関係を特徴付ける前に、オンラインジオメトリが組み込まれています。
これにより、ネイティブ画像からの幾何学的な機能の生成が可能になり、平面掃引を使用して候補の深度仮説を越えて投影されます。
私たちのメソッドの幾何学的前処理は、面倒なマルチビュートレーニングデータセットの作成を必要とせずに、強化されたマルチビュー再構築のためにエピポーラベースの機能を効果的に適応させます。
学習した類似点を集約することにより、コストボリュームを構築して正規化し、従来の密なマッチングアプローチでマルチビュー表面再構成が改善されます。
MV-Deepsimnetsは、特にさまざまな地上サンプリング距離を備えた空中および衛星画像の両方で一般化機能の観点から、主要な類似性学習ネットワークとエンドツーエンドの回帰モデルに対して優れたパフォーマンスを示します。
当社のパイプラインはMICMACソフトウェアに統合されており、標準の多解像度の画像マッチングパイプラインで容易に採用できます。

要約(オリジナル)

We introduce MV-DeepSimNets, a comprehensive suite of deep neural networks designed for multi-view similarity learning, leveraging epipolar geometry for training. Our approach incorporates an online geometry prior to characterize pixel relationships, either along the epipolar line or through homography rectification. This enables the generation of geometry-aware features from native images, which are then projected across candidate depth hypotheses using plane sweeping. Our method geometric preconditioning effectively adapts epipolar-based features for enhanced multi-view reconstruction, without requiring the laborious multi-view training dataset creation. By aggregating learned similarities, we construct and regularize the cost volume, leading to improved multi-view surface reconstruction over traditional dense matching approaches. MV-DeepSimNets demonstrates superior performance against leading similarity learning networks and end-to-end regression models, especially in terms of generalization capabilities across both aerial and satellite imagery with varied ground sampling distances. Our pipeline is integrated into MicMac software and can be readily adopted in standard multi-resolution image matching pipelines.

arxiv情報

著者 Mohamed Ali Chebbi,Ewelina Rupnik,Paul Lopes,Marc Pierrot-Deseilligny
発行日 2025-05-16 13:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-view dense image matching with similarity learning and geometry priors はコメントを受け付けていません

TwinTURBO: Semi-Supervised Fine-Tuning of Foundation Models via Mutual Information Decompositions for Downstream Task and Latent Spaces

要約

限られた量のラベル付きデータのトレーニングの課題に対処するために相互情報分解を利用する基礎モデルの半監視された微調整フレームワークを提示します。
私たちのアプローチは、2つの明確な下限を導き出します。i)分類などの下流タスク空間、条件付きおよび限界クロスエントロピーとともにカルバック繰り抜きの発散を使用して最適化され、ii)潜在的な空間表現、造影剤のような分解を使用して正規化および整列します。
この微調整戦略は、基礎モデルの事前に訓練された構造を保持し、小さな変圧器とトークン集約技術を含む特殊なプロジェクターモジュールのみを変更します。
いくつかのデータセットでの実験は、非標識データを効果的に活用することにより、非常に低ラベル条件下での分類タスクの大幅な改善を示しています。

要約(オリジナル)

We present a semi-supervised fine-tuning framework for foundation models that utilises mutual information decomposition to address the challenges of training for a limited amount of labelled data. Our approach derives two distinct lower bounds: i) for the downstream task space, such as classification, optimised using conditional and marginal cross-entropy alongside Kullback-Leibler divergence, and ii) for the latent space representation, regularised and aligned using a contrastive-like decomposition. This fine-tuning strategy retains the pre-trained structure of the foundation model, modifying only a specialised projector module comprising a small transformer and a token aggregation technique. Experiments on several datasets demonstrate significant improvements in classification tasks under extremely low-labelled conditions by effectively leveraging unlabelled data.

arxiv情報

著者 Guillaume Quétant,Pavlo Molchanov,Slava Voloshynovskiy
発行日 2025-05-16 13:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, cs.LG, math.IT, stat.ML | TwinTURBO: Semi-Supervised Fine-Tuning of Foundation Models via Mutual Information Decompositions for Downstream Task and Latent Spaces はコメントを受け付けていません

Equal is Not Always Fair: A New Perspective on Hyperspectral Representation Non-Uniformity

要約

ハイパースペクトル画像(HSI)表現は、スペクトル依存性、空間連続性、および特徴効率が複雑で矛盾する行動を示す、普及している不均一性によって根本的に挑戦されます。
ほとんどの既存のモデルは、次元間の均一性を想定する統一された処理パラダイムに依存しており、最適ではないパフォーマンスと偏った表現につながります。
これに対処するために、協同組合でありながら専門的なモジュールを通じて3倍の不均一性を明示的に解き放ち、解決する公平性向けフレームワークであるFairhypを提案します。
Runge-Kuttaにインスパイアされた空間変動性アダプターを導入して、解像度の不一致の下で空間的コヒーレンスを復元し、固有の球体を尊重しながら除外機能を強化するためのマルチレセプティブフィールドコンボリューションモジュール、およびStable Redange Spectral redangies rengentiers and the Spectral redingies resangies rengentiers bisiristed redingiers bisiristed context状態空間を尊重しながら、固有の範囲を尊重しながら違いを尊重します。
集約。
One-Size-Fits-Allソリューションとは異なり、FairHypは、グローバルな一貫性と相互補強を維持しながら、次元固有の適応を実現します。
この設計は、特定のタスク設定ではなく、HSI表現の本質的な構造から生じるという見解に基づいています。
これを検証するために、分類、除去、超解像度、インペイントインなどの4つの代表的なタスクにFairHypを適用し、共有構造の欠陥をモデル化する際の有効性を実証します。
広範な実験では、FairHypがさまざまなイメージング条件下で一貫して最先端の方法を上回ることが示されています。
私たちの調査結果は、HSIモデリングの構造的必要性として公平性を再定義し、高次元のビジョンタスクにおける適応性、効率、忠実度のバランスをとるための新しいパラダイムを提供します。

要約(オリジナル)

Hyperspectral image (HSI) representation is fundamentally challenged by pervasive non-uniformity, where spectral dependencies, spatial continuity, and feature efficiency exhibit complex and often conflicting behaviors. Most existing models rely on a unified processing paradigm that assumes homogeneity across dimensions, leading to suboptimal performance and biased representations. To address this, we propose FairHyp, a fairness-directed framework that explicitly disentangles and resolves the threefold non-uniformity through cooperative yet specialized modules. We introduce a Runge-Kutta-inspired spatial variability adapter to restore spatial coherence under resolution discrepancies, a multi-receptive field convolution module with sparse-aware refinement to enhance discriminative features while respecting inherent sparsity, and a spectral-context state space model that captures stable and long-range spectral dependencies via bidirectional Mamba scanning and statistical aggregation. Unlike one-size-fits-all solutions, FairHyp achieves dimension-specific adaptation while preserving global consistency and mutual reinforcement. This design is grounded in the view that non-uniformity arises from the intrinsic structure of HSI representations, rather than any particular task setting. To validate this, we apply FairHyp across four representative tasks including classification, denoising, super-resolution, and inpaintin, demonstrating its effectiveness in modeling a shared structural flaw. Extensive experiments show that FairHyp consistently outperforms state-of-the-art methods under varied imaging conditions. Our findings redefine fairness as a structural necessity in HSI modeling and offer a new paradigm for balancing adaptability, efficiency, and fidelity in high-dimensional vision tasks.

arxiv情報

著者 Wuzhou Quan,Mingqiang Wei,Jinhui Tang
発行日 2025-05-16 14:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Equal is Not Always Fair: A New Perspective on Hyperspectral Representation Non-Uniformity はコメントを受け付けていません

A Fourier Space Perspective on Diffusion Models

要約

拡散モデルは、画像、オーディオ、タンパク質、材料などのデータモダリティに関する最先端の生成モデルです。
これらのモダリティは、フーリエドメインの指数関数的に減衰する分散と大きさの特性を共有しています。
標準的な拡散確率モデル(DDPM)添加剤ホワイトノイズの前方プロセスの下で、この特性は、低周波よりも信号対雑音比(SNR)の観点から高速化され、より早く破損します。
逆プロセスは、高周波の詳細の前に低周波情報を生成します。
この作業では、フーリエ空間での拡散モデルの前方プロセスの誘導バイアスを研究します。
DDPMの高周波成分のより速いノーシングが、逆のプロセスでの正常仮定に違反することを理論的に分析し、経験的に実証します。
私たちの実験は、これが高周波成分の生成品質の低下につながることを示しています。
次に、同じ速度ですべての周波数を破壊し、生成中に典型的な周波数階層を削除するフーリエ空間で代替前方プロセスを研究し、標準のイメージングベンチマークでDDPMと同等に機能しながら、高周波数がプライマリであるデータセットの顕著なパフォーマンスの改善を示します。

要約(オリジナル)

Diffusion models are state-of-the-art generative models on data modalities such as images, audio, proteins and materials. These modalities share the property of exponentially decaying variance and magnitude in the Fourier domain. Under the standard Denoising Diffusion Probabilistic Models (DDPM) forward process of additive white noise, this property results in high-frequency components being corrupted faster and earlier in terms of their Signal-to-Noise Ratio (SNR) than low-frequency ones. The reverse process then generates low-frequency information before high-frequency details. In this work, we study the inductive bias of the forward process of diffusion models in Fourier space. We theoretically analyse and empirically demonstrate that the faster noising of high-frequency components in DDPM results in violations of the normality assumption in the reverse process. Our experiments show that this leads to degraded generation quality of high-frequency components. We then study an alternate forward process in Fourier space which corrupts all frequencies at the same rate, removing the typical frequency hierarchy during generation, and demonstrate marked performance improvements on datasets where high frequencies are primary, while performing on par with DDPM on standard imaging benchmarks.

arxiv情報

著者 Fabian Falck,Teodora Pandeva,Kiarash Zahirnia,Rachel Lawrence,Richard Turner,Edward Meeds,Javier Zazo,Sushrut Karmalkar
発行日 2025-05-16 14:13:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ME, stat.ML | A Fourier Space Perspective on Diffusion Models はコメントを受け付けていません

Communication-Efficient Federated Learning Based on Explanation-Guided Pruning for Remote Sensing Image Classification

要約

Federated Learning(FL)は、クライアントのローカルデータを共有せずに中央サーバーとモデルの更新のみを交換することにより、複数のクライアントがグローバルモデルを共同で訓練する分散型機械学習パラダイムです。
クライアントとセントラルサーバー間で送信するために必要なモデルの更新の大量により、ほとんどのFLシステムは高い転送コスト(つまり、通信オーバーヘッド)に関連付けられています。
この問題は、特に大規模なRSデータが制限された通信帯域幅を備えたFLシステムを介して処理および分析される場合、リモートセンシング(RS)の運用アプリケーションにとってより重要です。
この問題に対処するために、RS画像分類のコンテキストで、コミュニケーション効率の高いFLの説明誘導剪定戦略を紹介します。
剪定戦略は、レイヤーごとの関連性伝播(LRP)駆動型説明に基づいて定義されます。
2)非情報のものを排除して、モデルの更新の量を最小限に抑えます。
BigeArthNet-S2データセットの実験結果は、グローバルモデルの一般化能力を向上させながら、共有モデルの更新の数を効果的に削減することを示しています。
この作業のコードは、https://git.tu-berlin.de/rsim/fl-lrpで公開されています。

要約(オリジナル)

Federated learning (FL) is a decentralized machine learning paradigm in which multiple clients collaboratively train a global model by exchanging only model updates with the central server without sharing the local data of the clients. Due to the large volume of model updates required to be transmitted between clients and the central server, most FL systems are associated with high transfer costs (i.e., communication overhead). This issue is more critical for operational applications in remote sensing (RS), especially when large-scale RS data is processed and analyzed through FL systems with restricted communication bandwidth. To address this issue, we introduce an explanation-guided pruning strategy for communication-efficient FL in the context of RS image classification. Our pruning strategy is defined based on the layer-wise relevance propagation (LRP) driven explanations to: 1) efficiently and effectively identify the most relevant and informative model parameters (to be exchanged between clients and the central server); and 2) eliminate the non-informative ones to minimize the volume of model updates. The experimental results on the BigEarthNet-S2 dataset demonstrate that our strategy effectively reduces the number of shared model updates, while increasing the generalization ability of the global model. The code of this work is publicly available at https://git.tu-berlin.de/rsim/FL-LRP.

arxiv情報

著者 Jonas Klotz,Barış Büyüktaş,Begüm Demir
発行日 2025-05-16 14:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Communication-Efficient Federated Learning Based on Explanation-Guided Pruning for Remote Sensing Image Classification はコメントを受け付けていません