You KAN Do It in a Single Shot: Plug-and-Play Methods with Single-Instance Priors

要約

プラグアンドプレイ(PnP)法の使用は、逆問題を解くための中心的なアプローチとなっており、ノイズ除去器は、最適化をきれいな解に導く正則化プリオールとして機能している。KAN-PnPは、プラグアンドプレイ(PnP)パラダイムにKAN(Kolmogorov-Arnold Networks)をノイズ除去器として組み込んだ最適化フレームワークである。KAN-PnPは、従来のノイズ除去手法で一般的に必要とされる大規模なデータセットを必要としない、単一のノイズを含む観測値のみが利用可能なシングルインスタンス事前分布を持つ逆問題を解くために特別に設計されている。我々は、Kolmogorov-Arnold表現定理に基づくKANが、このような設定において効果的な事前分布として機能し、ノイズ除去に頑健なアプローチを提供することを示す。KANノイズ除去器がリプシッツ連続であることを証明し、PnP-ADMMのような最適化アルゴリズムにおける安定性と収束を、単発学習の文脈においても保証する。さらに、KAN-PnPの理論的保証を提供し、データ忠実度項の凸性、ノイズ除去器のリプシッツ連続性、正則化関数の有界性という重要な条件下での収束を実証する。これらの条件は、安定で信頼性の高い最適化にとって極めて重要である。我々の実験結果は、超解像と共同最適化において、KAN-PnPが既存の手法を凌駕し、最小限のデータでシングルショット学習において優れた性能を発揮することを示している。この手法は強力な収束特性を示し、少ない反復で高い精度を達成する。

要約(オリジナル)

The use of Plug-and-Play (PnP) methods has become a central approach for solving inverse problems, with denoisers serving as regularising priors that guide optimisation towards a clean solution. In this work, we introduce KAN-PnP, an optimisation framework that incorporates Kolmogorov-Arnold Networks (KANs) as denoisers within the Plug-and-Play (PnP) paradigm. KAN-PnP is specifically designed to solve inverse problems with single-instance priors, where only a single noisy observation is available, eliminating the need for large datasets typically required by traditional denoising methods. We show that KANs, based on the Kolmogorov-Arnold representation theorem, serve effectively as priors in such settings, providing a robust approach to denoising. We prove that the KAN denoiser is Lipschitz continuous, ensuring stability and convergence in optimisation algorithms like PnP-ADMM, even in the context of single-shot learning. Additionally, we provide theoretical guarantees for KAN-PnP, demonstrating its convergence under key conditions: the convexity of the data fidelity term, Lipschitz continuity of the denoiser, and boundedness of the regularisation functional. These conditions are crucial for stable and reliable optimisation. Our experimental results show, on super-resolution and joint optimisation, that KAN-PnP outperforms exiting methods, delivering superior performance in single-shot learning with minimal data. The method exhibits strong convergence properties, achieving high accuracy with fewer iterations.

arxiv情報

著者 Yanqi Cheng,Carola-Bibiane Schönlieb,Angelica I Aviles-Rivero
発行日 2025-05-02 09:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | You KAN Do It in a Single Shot: Plug-and-Play Methods with Single-Instance Priors はコメントを受け付けていません

FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis

要約

長尺映像の生成では、フレーム数の変化による分布のずれに悩まされる短尺映像で学習したモデルを用いて、長尺映像を生成する。そのため、視覚と動きの品質を高めるために元の短いフレームからの局所的な情報を利用し、外観の一貫性を確保するために長いフレーム全体からの大域的な情報を利用する必要がある。既存のトレーニング不要の手法では、動画における外観と動きは密接に結合しているため、両者の利点を効果的に統合することは困難であり、動きの不一致や視覚的品質につながる。本論文では、主成分分析(PCA)を適用することで、大域的情報と局所的情報を、一貫性のある外観と動きの強度情報に正確に分離できることを明らかにし、大域的一貫性と局所的品質の洗練された相補的統合を可能にする。この知見に基づき、高い一貫性と品質を同時に達成する、PCAに基づくトレーニング不要の長尺映像生成パラダイムであるFreePCAを提案する。具体的には、主成分空間における余弦類似度を測定することで、一貫した外観と動きの強さの特徴を切り離す。また、初期ノイズの平均統計量を再利用することで一貫性をさらに高める。実験は、FreePCAが訓練を必要とせずに様々なビデオ拡散モデルに適用でき、大幅な改善につながることを実証している。コードはhttps://github.com/JosephTiTan/FreePCA。

要約(オリジナル)

Long video generation involves generating extended videos using models trained on short videos, suffering from distribution shifts due to varying frame counts. It necessitates the use of local information from the original short frames to enhance visual and motion quality, and global information from the entire long frames to ensure appearance consistency. Existing training-free methods struggle to effectively integrate the benefits of both, as appearance and motion in videos are closely coupled, leading to motion inconsistency and visual quality. In this paper, we reveal that global and local information can be precisely decoupled into consistent appearance and motion intensity information by applying Principal Component Analysis (PCA), allowing for refined complementary integration of global consistency and local quality. With this insight, we propose FreePCA, a training-free long video generation paradigm based on PCA that simultaneously achieves high consistency and quality. Concretely, we decouple consistent appearance and motion intensity features by measuring cosine similarity in the principal component space. Critically, we progressively integrate these features to preserve original quality and ensure smooth transitions, while further enhancing consistency by reusing the mean statistics of the initial noise. Experiments demonstrate that FreePCA can be applied to various video diffusion models without requiring training, leading to substantial improvements. Code is available at https://github.com/JosephTiTan/FreePCA.

arxiv情報

著者 Jiangtong Tan,Hu Yu,Jie Huang,Jie Xiao,Feng Zhao
発行日 2025-05-02 10:27:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis はコメントを受け付けていません

TSTMotion: Training-free Scene-awarenText-to-motion Generation

要約

テキスト-トゥ-モーション生成は、最近、主に空白の背景における人間の動きシーケンスを生成することに焦点を当てて、大きな研究関心を集めている。しかし、人間の動きは一般的に多様な3Dシーン内で発生するため、シーンを考慮したテキスト-トゥ-モーション生成手法の探求が促されている。しかし、既存のシーン認識手法は、多くの場合、多様な3Dシーンにおける大規模なグランドトゥルースモーションシーケンスに依存しており、高価なコストのために実用的な課題を提起している。この課題を軽減するために、我々は初めて、シーン認識能力を持つ事前訓練された空白背景モーションジェネレータを効率的に強化する、⾳びない⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを提案する。具体的には、与えられた3Dシーンとテキスト記述を条件として、シーンを意識したモーションガイダンスを推論、予測、検証するために基礎モデルを一緒に採用します。次に、このモーションガイダンスを、2つの修正を加えた空背景モーションジェネレータに組み込み、シーンを意識したテキスト駆動モーションシーケンスを実現する。提案するフレームワークの有効性と汎用性は、広範な実験によって実証されている。本論文のコードは、(参考文献{https://tstmotion.github.io/}{プロジェクトページ})で公開する。

要約(オリジナル)

Text-to-motion generation has recently garnered significant research interest, primarily focusing on generating human motion sequences in blank backgrounds. However, human motions commonly occur within diverse 3D scenes, which has prompted exploration into scene-aware text-to-motion generation methods. Yet, existing scene-aware methods often rely on large-scale ground-truth motion sequences in diverse 3D scenes, which poses practical challenges due to the expensive cost. To mitigate this challenge, we are the first to propose a \textbf{T}raining-free \textbf{S}cene-aware \textbf{T}ext-to-\textbf{Motion} framework, dubbed as \textbf{TSTMotion}, that efficiently empowers pre-trained blank-background motion generators with the scene-aware capability. Specifically, conditioned on the given 3D scene and text description, we adopt foundation models together to reason, predict and validate a scene-aware motion guidance. Then, the motion guidance is incorporated into the blank-background motion generators with two modifications, resulting in scene-aware text-driven motion sequences. Extensive experiments demonstrate the efficacy and generalizability of our proposed framework. We release our code in \href{https://tstmotion.github.io/}{Project Page}.

arxiv情報

著者 Ziyan Guo,Haoxuan Qu,Hossein Rahmani,Dewen Soh,Ping Hu,Qiuhong Ke,Jun Liu
発行日 2025-05-02 10:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | TSTMotion: Training-free Scene-awarenText-to-motion Generation はコメントを受け付けていません

Deciphering scrolls with tomography: A training experiment

要約

損傷の激しい古文書の修復は、多くの科学者にとって大きな課題である。X線コンピュータ断層撮影(CT)のような非破壊技術とコンピュータビジョンアルゴリズムの組み合わせは、破損した文書の隠された内容を仮想的に読み取ることを容易にする手段として登場した。本論文では、古文書の入手から仮想復元までの全過程をシミュレートすることを目的とした教育ラボを提案する。我々は、有害なX線の代わりに可視光を使用する実験装置と、生徒が文字が印刷された透明な巻物(巻物)を仮想的に復元することを可能にする教育用ソフトウェア・パイプラインを開発した。

要約(オリジナル)

The recovery of severely damaged ancient written documents has proven to be a major challenge for many scientists, mainly due to the impracticality of physical unwrapping them. Non-destructive techniques, such as X-ray computed tomography (CT), combined with computer vision algorithms, have emerged as a means of facilitating the virtual reading of the hidden contents of the damaged documents. This paper proposes an educational laboratory aimed at simulating the entire process of acquisition and virtual recovery of the ancient works. We have developed an experimental setup that uses visible light to replace the detrimental X-rays, and a didactic software pipeline that allows students to virtually reconstruct a transparent rolled sheet with printed text on it, the wrapped scroll.

arxiv情報

著者 Sonia Foschiatti,Axel Kittenberger,Otmar Scherzer
発行日 2025-05-02 11:28:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 44A12, 97M10, cs.CV, eess.IV | Deciphering scrolls with tomography: A training experiment はコメントを受け付けていません

HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration

要約

拡散変換器(DiT)は生成的なタスクに優れているが、推論コストが高いため、実用的な導入には課題がある。冗長な計算を保存して検索するフィーチャーキャッシングは、高速化の可能性を提供する。既存の学習ベースのキャッシングは、適応的ではあるが、前のタイムステップの影響を見落としている。また、学習と推論の間で、予測ノイズと高画質画像の目標がずれてしまうという問題もある。この2つの不一致は性能と効率の両方を損なう。このため、HarmoniCaと名付けられた新しい学習ベースのキャッシュフレームワークを用いて、学習と推論を調和させる。HarmoniCaは、まずステップワイズデノイジングトレーニング(SDT)を組み込み、ノイズ除去プロセスの連続性を確保する。さらに、画像誤差を近似する効率的なプロキシによって、画質とキャッシュ利用のバランスをとるために、画像誤差プロキシ誘導目標(IEPO)を適用する。モデル$8$、サンプラー$4$、解像度$256times256$から$2K$にわたる広範な実験により、本フレームワークの優れた性能と高速化が実証された。例えば、$40%以上の待ち時間削減(すなわち、理論上$2.07times$ の高速化)とPixArt-$α$での性能向上を達成した。驚くべきことに、我々のイメージフリーアプローチは、以前の方法と比較して、トレーニング時間を$25%$短縮する。我々のコードはhttps://github.com/ModelTC/HarmoniCa。

要約(オリジナル)

Diffusion Transformers (DiTs) excel in generative tasks but face practical deployment challenges due to high inference costs. Feature caching, which stores and retrieves redundant computations, offers the potential for acceleration. Existing learning-based caching, though adaptive, overlooks the impact of the prior timestep. It also suffers from misaligned objectives–aligned predicted noise vs. high-quality images–between training and inference. These two discrepancies compromise both performance and efficiency. To this end, we harmonize training and inference with a novel learning-based caching framework dubbed HarmoniCa. It first incorporates Step-Wise Denoising Training (SDT) to ensure the continuity of the denoising process, where prior steps can be leveraged. In addition, an Image Error Proxy-Guided Objective (IEPO) is applied to balance image quality against cache utilization through an efficient proxy to approximate the image error. Extensive experiments across $8$ models, $4$ samplers, and resolutions from $256\times256$ to $2K$ demonstrate superior performance and speedup of our framework. For instance, it achieves over $40\%$ latency reduction (i.e., $2.07\times$ theoretical speedup) and improved performance on PixArt-$\alpha$. Remarkably, our image-free approach reduces training time by $25\%$ compared with the previous method. Our code is available at https://github.com/ModelTC/HarmoniCa.

arxiv情報

著者 Yushi Huang,Zining Wang,Ruihao Gong,Jing Liu,Xinjie Zhang,Jinyang Guo,Xianglong Liu,Jun Zhang
発行日 2025-05-02 11:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration はコメントを受け付けていません

Efficient Vision-based Vehicle Speed Estimation

要約

本稿では、交通カメラの映像から車速を推定するための計算効率の高い手法を紹介する。2次元検出と消失点ジオメトリから得られた3次元バウンディングボックスを利用する先行研究をベースに、リアルタイム性能を向上させるためのいくつかの改良点を導入する。BrnoCompSpeedデータセットを用いて、車両検出と速度推定精度の観点から、いくつかのバリエーションで本手法を評価する。エッジデバイスを含む様々なハードウェアプラットフォームにわたる広範な評価により、速度推定精度を同等または向上させながら、従来の最先端技術と比較してフレーム/秒(FPS)が大幅に向上していることが実証された。精度と計算コストのトレードオフを分析し、学習後の量子化を利用したより小さなモデルが実世界での展開に最適なバランスを提供することを示す。我々の最高性能モデルは、車速推定誤差の中央値(0.58km/h 対 0.60km/h)、検出精度(91.02% 対 87.08%)、再現率(91.14% 対 83.32%)の点で従来の最先端技術を上回ると同時に、5.5倍高速である。

要約(オリジナル)

This paper presents a computationally efficient method for vehicle speed estimation from traffic camera footage. Building upon previous work that utilizes 3D bounding boxes derived from 2D detections and vanishing point geometry, we introduce several improvements to enhance real-time performance. We evaluate our method in several variants on the BrnoCompSpeed dataset in terms of vehicle detection and speed estimation accuracy. Our extensive evaluation across various hardware platforms, including edge devices, demonstrates significant gains in frames per second (FPS) compared to the prior state-of-the-art, while maintaining comparable or improved speed estimation accuracy. We analyze the trade-off between accuracy and computational cost, showing that smaller models utilizing post-training quantization offer the best balance for real-world deployment. Our best performing model beats previous state-of-the-art in terms of median vehicle speed estimation error (0.58 km/h vs. 0.60 km/h), detection precision (91.02% vs 87.08%) and recall (91.14% vs. 83.32%) while also being 5.5 times faster.

arxiv情報

著者 Andrej Macko,Lukáš Gajdošech,Viktor Kocur
発行日 2025-05-02 11:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T45, cs.CV, I.4.9 | Efficient Vision-based Vehicle Speed Estimation はコメントを受け付けていません

T-Graph: Enhancing Sparse-view Camera Pose Estimation by Pairwise Translation Graph

要約

異なる視点から撮影された限られた数の画像から6自由度(6-DoF)ポーズを推定することを目的としたスパースビューカメラポーズ推定は、リモートセンシングアプリケーションにおける基本的でありながら困難な問題である。既存の手法では、各視点のペア間の並進情報が見落とされることが多く、スパースビューのシナリオでは最適なパフォーマンスが得られない。この限界に対処するために、我々は、スパースビュー設定におけるカメラポーズ推定を強化するための、プラグアンドプレイの軽量モジュールであるT-graphを紹介する。T-graphは、ペア画像特徴を入力とし、それらを多層パーセプトロン(MLP)を通してマッピングする。そして、ノードはカメラを表し、エッジはそれらの並進関係をエンコードする、完全に連結された並進グラフを構築します。これは、効率性と使いやすさを維持しながら、元の予測と並行して追加ブランチとして既存のモデルにシームレスに統合することができる。さらに、異なるローカル座標系で定式化された2つのペアワイズ並進表現、relative-tとpair-tを導入する。relative-tが直感的な空間関係を捉えるのに対して、pair-tは回転を分離した代替表現を提供する。この2つの表現は、多様なアプリケーションシナリオへの適応性を高め、モジュールの頑健性をさらに向上させる。公開データセット(C03DとIMC PhotoTourism)を用いた2つの最新手法(RelPose++とForge)に対する広範な実験により、T-Graphの有効性と汎用性の両方が検証された。その結果、様々な測定基準において一貫した改善が見られ、特にカメラ中心精度は、2視点から8視点まで1%から6%改善した。

要約(オリジナル)

Sparse-view camera pose estimation, which aims to estimate the 6-Degree-of-Freedom (6-DoF) poses from a limited number of images captured from different viewpoints, is a fundamental yet challenging problem in remote sensing applications. Existing methods often overlook the translation information between each pair of viewpoints, leading to suboptimal performance in sparse-view scenarios. To address this limitation, we introduce T-Graph, a lightweight, plug-and-play module to enhance camera pose estimation in sparse-view settings. T-graph takes paired image features as input and maps them through a Multilayer Perceptron (MLP). It then constructs a fully connected translation graph, where nodes represent cameras and edges encode their translation relationships. It can be seamlessly integrated into existing models as an additional branch in parallel with the original prediction, maintaining efficiency and ease of use. Furthermore, we introduce two pairwise translation representations, relative-t and pair-t, formulated under different local coordinate systems. While relative-t captures intuitive spatial relationships, pair-t offers a rotation-disentangled alternative. The two representations contribute to enhanced adaptability across diverse application scenarios, further improving our module’s robustness. Extensive experiments on two state-of-the-art methods (RelPose++ and Forge) using public datasets (C03D and IMC PhotoTourism) validate both the effectiveness and generalizability of T-Graph. The results demonstrate consistent improvements across various metrics, notably camera center accuracy, which improves by 1% to 6% from 2 to 8 viewpoints.

arxiv情報

著者 Qingyu Xian,Weiqin Jiao,Hao Cheng,Berend Jan van der Zwaag,Yanqiu Huang
発行日 2025-05-02 11:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | T-Graph: Enhancing Sparse-view Camera Pose Estimation by Pairwise Translation Graph はコメントを受け付けていません

High Dynamic Range Novel View Synthesis with Single Exposure

要約

ハイダイナミックレンジ・ノベルビュー合成(HDR-NVS)は、ローダイナミックレンジ(LDR)画像から3DシーンのHDRモデルを確立することを目的としている。通常、1枚のLDR画像では最も明るい領域と最も暗い領域の両方を同時に表現することができないため、シーン内のより広い範囲の輝度レベルをキャプチャするために複数露光のLDR画像が採用される。効果的ではあるが、この多重露光HDR-NVSアプローチには、モーションアーチファクト(例えば、ゴーストやぼかし)の影響を受けやすいこと、高いキャプチャコストとストレージコストなど、大きな限界がある。これらの課題を克服するために、我々は初めて単一露光HDR-NVS問題を導入する。さらに、LDR画像形成の原理に基づいて定式化された2つの専用モジュール、1つはLDR色をHDR色に変換するモジュール、もう1つはHDR画像をLDR形式に変換するモジュールであり、教師なし学習が閉ループで可能になるような、新しいアプローチMono-HDR-3Dを紹介する。メタアルゴリズムとして設計された我々のアプローチは、既存のNVSモデルとシームレスに統合することができる。広範な実験により、Mono-HDR-3Dが従来の手法を大幅に上回ることが示されている。ソースコードは公開予定です。

要約(オリジナル)

High Dynamic Range Novel View Synthesis (HDR-NVS) aims to establish a 3D scene HDR model from Low Dynamic Range (LDR) imagery. Typically, multiple-exposure LDR images are employed to capture a wider range of brightness levels in a scene, as a single LDR image cannot represent both the brightest and darkest regions simultaneously. While effective, this multiple-exposure HDR-NVS approach has significant limitations, including susceptibility to motion artifacts (e.g., ghosting and blurring), high capture and storage costs. To overcome these challenges, we introduce, for the first time, the single-exposure HDR-NVS problem, where only single exposure LDR images are available during training. We further introduce a novel approach, Mono-HDR-3D, featuring two dedicated modules formulated by the LDR image formation principles, one for converting LDR colors to HDR counterparts, and the other for transforming HDR images to LDR format so that unsupervised learning is enabled in a closed loop. Designed as a meta-algorithm, our approach can be seamlessly integrated with existing NVS models. Extensive experiments show that Mono-HDR-3D significantly outperforms previous methods. Source code will be released.

arxiv情報

著者 Kaixuan Zhang,Hu Wang,Minxian Li,Mingwu Ren,Mao Ye,Xiatian Zhu
発行日 2025-05-02 12:04:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | High Dynamic Range Novel View Synthesis with Single Exposure はコメントを受け付けていません

RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement

要約

水中画像強調(UIE)は、波長依存の減衰が深刻なコンテンツ劣化や色歪みを引き起こす海洋ビジョンアプリケーションにとって重要な前処理ステップである。Mambaのような最近の状態空間モデルは、長距離依存性モデリングの可能性を示す一方で、1次元シーケンスに対する展開操作と固定スキャン経路は、局所的なオブジェクト意味論と大域的な関係モデリングに適応できず、複雑な水中環境における有効性を制限している。この問題に対処するため、我々は従来のMambaを、全画素の空間相関の統計的分布に基づいて動的に走査順序を変更するソートベースの走査機構で強化する。これにより、ネットワークが最も情報量の多い構成要素(構造的特徴と意味的特徴)を優先するよう促す。このメカニズムを構築した上で、我々は視覚的自己適応状態ブロック(VSSB)を考案し、マンバの動的並べ替えを入力依存の動的畳み込みと調和させ、グローバルな文脈とローカルな関係性の手がかりの首尾一貫した統合を可能にする。この絶妙な設計は、特に広範囲に分散したコンテンツに対して、統計的頻度を大幅に弱めるグローバルフォーカスバイアスを排除するのに役立つ。ロバストな特徴抽出と精密化のために、マルチスケール表現を適応的に融合するためのクロスフィーチャブリッジ(CFB)を設計する。これらの取り組みにより、効果的なUIEのための新しい関係駆動型マンバフレームワーク(RD-UIE)が構成される。水中エンハンスメントベンチマークを用いた広範な実験により、RD-UIEは、定量的指標と視覚的忠実度の両方において、最先端のアプローチであるWMambaを上回り、3つのベンチマークで平均0.55dBの性能向上を達成することが実証された。我々のコードは https://github.com/kkoucy/RD-UIE/tree/main で利用可能です。

要約(オリジナル)

Underwater image enhancement (UIE) is a critical preprocessing step for marine vision applications, where wavelength-dependent attenuation causes severe content degradation and color distortion. While recent state space models like Mamba show potential for long-range dependency modeling, their unfolding operations and fixed scan paths on 1D sequences fail to adapt to local object semantics and global relation modeling, limiting their efficacy in complex underwater environments. To address this, we enhance conventional Mamba with the sorting-based scanning mechanism that dynamically reorders scanning sequences based on statistical distribution of spatial correlation of all pixels. In this way, it encourages the network to prioritize the most informative components–structural and semantic features. Upon building this mechanism, we devise a Visually Self-adaptive State Block (VSSB) that harmonizes dynamic sorting of Mamba with input-dependent dynamic convolution, enabling coherent integration of global context and local relational cues. This exquisite design helps eliminate global focus bias, especially for widely distributed contents, which greatly weakens the statistical frequency. For robust feature extraction and refinement, we design a cross-feature bridge (CFB) to adaptively fuse multi-scale representations. These efforts compose the novel relation-driven Mamba framework for effective UIE (RD-UIE). Extensive experiments on underwater enhancement benchmarks demonstrate RD-UIE outperforms the state-of-the-art approach WMamba in both quantitative metrics and visual fidelity, averagely achieving 0.55 dB performance gain on the three benchmarks. Our code is available at https://github.com/kkoucy/RD-UIE/tree/main

arxiv情報

著者 Kui Jiang,Yan Luo,Junjun Jiang,Xin Xu,Fei Ma,Fei Yu
発行日 2025-05-02 12:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement はコメントを受け付けていません

Core-Set Selection for Data-efficient Land Cover Segmentation

要約

リモートセンシングデータへのアクセスが増加し、そのようなデータが大規模な意思決定に情報を提供する可能性があるため、多くの地球観測タスクのためのディープラーニングモデルの開発が推進されている。伝統的に、このようなモデルは大規模なデータセットで学習されなければならない。しかし、データセットが大きければ大きいほど良い結果が得られるという一般的な仮定は、データ分布の複雑さ、バイアスやノイズが混入する可能性、膨大なデータセットの処理と保存に必要な計算リソースを見落としている傾向がある。したがって、効果的な解決策は、データの量と質の両方を考慮する必要がある。本論文では、画像のみ、ラベルのみ、およびそれぞれの組み合わせに依存するリモートセンシング画像セグメンテーションデータセットから、サンプルの重要なサブセットを選択するための6つの新しいコアセット選択手法を提案する。これらの手法を、一般的に使用される3つの土地被覆分類データセットを用いて、ランダム選択のベースラインと比較するベンチマークを行う:DFC2022、Vaihingen、Potsdamである。それぞれのデータセットにおいて、サンプルのサブセットに対する学習がランダムなベースラインを上回り、いくつかのアプローチは利用可能な全てのデータに対する学習を上回ることを示す。この結果は、リモートセンシング領域におけるデータ中心学習の重要性と可能性を示している。コードはhttps://github.com/keillernogueira/data-centric-rs-classification/。

要約(オリジナル)

The increasing accessibility of remotely sensed data and the potential of such data to inform large-scale decision-making has driven the development of deep learning models for many Earth Observation tasks. Traditionally, such models must be trained on large datasets. However, the common assumption that broadly larger datasets lead to better outcomes tends to overlook the complexities of the data distribution, the potential for introducing biases and noise, and the computational resources required for processing and storing vast datasets. Therefore, effective solutions should consider both the quantity and quality of data. In this paper, we propose six novel core-set selection methods for selecting important subsets of samples from remote sensing image segmentation datasets that rely on imagery only, labels only, and a combination of each. We benchmark these approaches against a random-selection baseline on three commonly used land cover classification datasets: DFC2022, Vaihingen, and Potsdam. In each of the datasets, we demonstrate that training on a subset of samples outperforms the random baseline, and some approaches outperform training on all available data. This result shows the importance and potential of data-centric learning for the remote sensing domain. The code is available at https://github.com/keillernogueira/data-centric-rs-classification/.

arxiv情報

著者 Keiller Nogueira,Akram Zaytar,Wanli Ma,Ribana Roscher,Ronny Hänsch,Caleb Robinson,Anthony Ortiz,Simone Nsutezo,Rahul Dodhia,Juan M. Lavista Ferres,Oktay Karakuş,Paul L. Rosin
発行日 2025-05-02 12:22:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Core-Set Selection for Data-efficient Land Cover Segmentation はコメントを受け付けていません