CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

要約

このペーパーは、ロボット操作タスクにおける明確なオブジェクトのカテゴリレベルのポーズ推定に取り組み、新しいベンチマークデータセットを導入します。
最近の方法では、パーツがカテゴリレベルでポーズとサイズを推定しますが、ポイントクラウドの最初のセグメントパーツをセグメント化する幾何学的キューと複雑なマルチステージパイプラインに依存し、6Dポーズの正規化されたパーツ座標空間(NPCS)推定に依存しています。
これらのアプローチは、RGB画像からの密なセマンティックキューを見落としており、特に小さな部分を持つオブジェクトでは、最適ではない精度につながります。
これらの制限に対処するために、6Dポーズとカテゴリー的な明確な部分を推定するために、単一ステージネットワークCAP-NETを提案します。
この方法では、RGB-D機能を組み合わせて、各部品のインスタンスセグメンテーションとNPCS表現をエンドツーエンドの方法で生成します。
Cap-Netは、統一されたネットワークを使用して、ポイントワイズのクラスラベル、Centroidオフセット、およびNPCSマップを同時に予測します。
クラスタリングアルゴリズムは、推定された重心距離に基づいて同じ予測クラスのポイントをグループ化して、各部分を分離します。
最後に、各部品のNPCS領域は、最終的なポーズとサイズを回復するためにポイントクラウドと整合しています。
SIM-to-Realドメインギャップを橋渡しするために、これまでで最大のRGB-Dの明確なデータセットであるRGBD-ARTデータセットを導入します。
RGBD-ARTデータセットの実験的評価は、この方法が最先端のアプローチを大幅に上回ることを示しています。
ロボットタスクにおけるモデルの実際の展開は、その堅牢性と例外的なSIMから現実的な転送機能を強調し、その実質的な実用性を確認しています。
データセット、コード、事前に訓練されたモデルは、プロジェクトページで入手できます。

要約(オリジナル)

This paper tackles category-level pose estimation of articulated objects in robotic manipulation tasks and introduces a new benchmark dataset. While recent methods estimate part poses and sizes at the category level, they often rely on geometric cues and complex multi-stage pipelines that first segment parts from the point cloud, followed by Normalized Part Coordinate Space (NPCS) estimation for 6D poses. These approaches overlook dense semantic cues from RGB images, leading to suboptimal accuracy, particularly for objects with small parts. To address these limitations, we propose a single-stage Network, CAP-Net, for estimating the 6D poses and sizes of Categorical Articulated Parts. This method combines RGB-D features to generate instance segmentation and NPCS representations for each part in an end-to-end manner. CAP-Net uses a unified network to simultaneously predict point-wise class labels, centroid offsets, and NPCS maps. A clustering algorithm then groups points of the same predicted class based on their estimated centroid distances to isolate each part. Finally, the NPCS region of each part is aligned with the point cloud to recover its final pose and size. To bridge the sim-to-real domain gap, we introduce the RGBD-Art dataset, the largest RGB-D articulated dataset to date, featuring photorealistic RGB images and depth noise simulated from real sensors. Experimental evaluations on the RGBD-Art dataset demonstrate that our method significantly outperforms the state-of-the-art approach. Real-world deployments of our model in robotic tasks underscore its robustness and exceptional sim-to-real transfer capabilities, confirming its substantial practical utility. Our dataset, code and pre-trained models are available on the project page.

arxiv情報

著者 Jingshun Huang,Haitao Lin,Tianyu Wang,Yanwei Fu,Xiangyang Xue,Yi Zhu
発行日 2025-04-15 14:30:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image はコメントを受け付けていません

Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset

要約

人間が注目した説明概念を含むデータセットであるMobygazeを使用して、マルチモーダルビデオ解釈モデルに対する概念に基づいた監督の影響を調べます。
注釈付き概念のモダリティ(視覚、テキスト、またはオーディオ)によって分類されたデータサブセットで構成されるコンセプトモダリティ固有のデータセット(CMSD)を紹介します。
CMSDでトレーニングされたモデルは、早期および後期の融合アプローチの両方で従来のレガシートレーニングを使用しているモデルよりも優れています。
特に、このアプローチにより、遅い融合モデルは、早期融合モデルのパフォーマンスに近いパフォーマンスを実現できます。
これらの調査結果は、堅牢で自己説明可能なビデオモデルの開発におけるモダリティ固有の注釈の重要性を強調し、複雑なビデオ分析における解釈可能なマルチモーダル学習の進歩に貢献しています。

要約(オリジナル)

We examine the impact of concept-informed supervision on multimodal video interpretation models using MOByGaze, a dataset containing human-annotated explanatory concepts. We introduce Concept Modality Specific Datasets (CMSDs), which consist of data subsets categorized by the modality (visual, textual, or audio) of annotated concepts. Models trained on CMSDs outperform those using traditional legacy training in both early and late fusion approaches. Notably, this approach enables late fusion models to achieve performance close to that of early fusion models. These findings underscore the importance of modality-specific annotations in developing robust, self-explainable video models and contribute to advancing interpretable multimodal learning in complex video analysis.

arxiv情報

著者 Elisa Ancarani,Julie Tores,Lucile Sassatelli,Rémy Sun,Hui-Yin Wu,Frédéric Precioso
発行日 2025-04-15 14:33:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset はコメントを受け付けていません

Next-Future: Sample-Efficient Policy Learning for Robotic-Arm Tasks

要約

Hindsight Experience Replay(彼女)は、バイナリ報酬を備えたロボット操作タスクでサンプル効率の高いマルチゴール補強学習(RL)を達成するための最先端のアルゴリズムと広く見なされています。
彼女は、再定義された目標で軌跡を再生することにより、失敗した試みからの学習を促進します。
ただし、原則的なフレームワークがないヒューリスティックベースのリプレイメソッドに依存しています。
この制限に対処するために、シングルステップの移行に報いることに焦点を当てた新しいリプレイ戦略「次の栄養」を紹介します。
このアプローチは、特に厳格な精度要件の下で、マルチゴールマルコフ決定プロセス(MDP)を学習する際のサンプル効率と精度を大幅に向上させます。これは、複雑で正確なロボットアームタスクを実行するための重要な側面です。
単一ステップの学習がマルチゴールRLフレームワーク内での値近似を改善する方法を強調することにより、私たちの方法の有効性を実証します。
提案されたリプレイ戦略のパフォーマンスは、トレーニングに10個のランダムシードを使用して、8つの挑戦的なロボット操作タスクで評価されます。
我々の結果は、8つのタスクのうち7つのサンプル効率の大幅な改善と、6つのタスクでの成功率が高いことを示しています。
さらに、実際の実験は、学習ポリシーの実用的な実現可能性を検証し、複雑なロボットアームタスクの解決における「次の維持」の可能性を実証します。

要約(オリジナル)

Hindsight Experience Replay (HER) is widely regarded as the state-of-the-art algorithm for achieving sample-efficient multi-goal reinforcement learning (RL) in robotic manipulation tasks with binary rewards. HER facilitates learning from failed attempts by replaying trajectories with redefined goals. However, it relies on a heuristic-based replay method that lacks a principled framework. To address this limitation, we introduce a novel replay strategy, ‘Next-Future’, which focuses on rewarding single-step transitions. This approach significantly enhances sample efficiency and accuracy in learning multi-goal Markov decision processes (MDPs), particularly under stringent accuracy requirements — a critical aspect for performing complex and precise robotic-arm tasks. We demonstrate the efficacy of our method by highlighting how single-step learning enables improved value approximation within the multi-goal RL framework. The performance of the proposed replay strategy is evaluated across eight challenging robotic manipulation tasks, using ten random seeds for training. Our results indicate substantial improvements in sample efficiency for seven out of eight tasks and higher success rates in six tasks. Furthermore, real-world experiments validate the practical feasibility of the learned policies, demonstrating the potential of ‘Next-Future’ in solving complex robotic-arm tasks.

arxiv情報

著者 Fikrican Özgür,René Zurbrügg,Suryansh Kumar
発行日 2025-04-15 14:45:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Next-Future: Sample-Efficient Policy Learning for Robotic-Arm Tasks はコメントを受け付けていません

Cryo-em images are intrinsically low dimensional

要約

シミュレーションベースの推論は、クレオスビなどの方法でニューラルネットワークを使用して、学習した潜在表現を介して生体分子コンフォメーションを推測するために、クリオエレクトロン顕微鏡の強力なフレームワークを提供します。
この潜在スペースは、物理システムと推論プロセスに関する貴重な情報をエンコードする豊富な機会を表しています。
この潜在能力を活用すると、これらの表現の基礎となる幾何学的構造を理解することにかかっています。
この構造を調査し、マニホールド学習技術をヘマグルチニン(シミュレーションおよび実験的)のクリオスビ表現に適用します。
これらの高次元データは、実験的な対応物を効果的にカバーするシミュレートされたデータを使用して、低次元の滑らかなマニホールドに本質的に浸透していることを明らかにします。
拡散マップを使用してマニホールドのジオメトリを特徴付けることにより、座標解釈方法を介してその主要な変動軸を識別することにより、潜在構造と主要な物理パラメーターの間に直接的なリンクを確立します。
この本質的な低次元性と解釈可能な幾何学的組織を発見することで、Cryosbiアプローチを検証するだけでなく、データ構造からさらに学習し、これが明らかにした多様なジオメトリを活用することにより将来の推論戦略を改善する機会を提供します。

要約(オリジナル)

Simulation-based inference provides a powerful framework for cryo-electron microscopy, employing neural networks in methods like CryoSBI to infer biomolecular conformations via learned latent representations. This latent space represents a rich opportunity, encoding valuable information about the physical system and the inference process. Harnessing this potential hinges on understanding the underlying geometric structure of these representations. We investigate this structure by applying manifold learning techniques to CryoSBI representations of hemagglutinin (simulated and experimental). We reveal that these high-dimensional data inherently populate low-dimensional, smooth manifolds, with simulated data effectively covering the experimental counterpart. By characterizing the manifold’s geometry using Diffusion Maps and identifying its principal axes of variation via coordinate interpretation methods, we establish a direct link between the latent structure and key physical parameters. Discovering this intrinsic low-dimensionality and interpretable geometric organization not only validates the CryoSBI approach but enables us to learn more from the data structure and provides opportunities for improving future inference strategies by exploiting this revealed manifold geometry.

arxiv情報

著者 Luke Evans,Octavian-Vlad Murad,Lars Dingeldein,Pilar Cossio,Roberto Covino,Marina Meila
発行日 2025-04-15 14:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.BM, q-bio.QM, stat.ML | Cryo-em images are intrinsically low dimensional はコメントを受け付けていません

UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis

要約

大規模なビジョン言語モデルの最近の進歩は、デジタルデバイスの生産性を高めるために人間のような視覚認識能力を利用するグラフィカルユーザーインターフェイス(GUI)エージェントの開発を加速しています。
プラットフォームに依存し、実装のバリエーションに対して脆弱なGUIメタデータに基づいたアプローチと比較して、ビジョンベースのアプローチはより広範な適用性を提供します。
このビジョンベースのパラダイムでは、特に限られたパブリックトレーニングデータセットとリソース集約型マニュアル命令データアノテーションのために、特定のスクリーンショットの対応する要素の位置にユーザー命令をマッピングするGUI命令の接地が依然として重要な課題です。
これらの課題に対処するために、ヒトのアノテーターの代わりにGPT-4oを使用してさまざまな複雑な命令データセットを生成するために、大規模なデータ合成パイプラインUI-E2i-Synthを導入します。
さらに、多様な注釈の側面を組み込むことにより、既存のベンチマークの制限に対処するように設計された新しいGUI命令の接地ベンチマークUI-I2Eベンチを提案します。
合成されたデータで訓練されたモデルは、GUI命令の接地で優れたパフォーマンスを実現し、提案されたデータ合成パイプラインの進歩を示しています。
提案されたベンチマークは、広範な分析を伴い、GUIの接地における将来の研究のための実用的な洞察を提供します。
https://colmon46.github.io/i2e-bench-leaderboard/で対応するアーティファクトをリリースします

要約(オリジナル)

Recent advancements in Large Vision-Language Models are accelerating the development of Graphical User Interface (GUI) agents that utilize human-like vision perception capabilities to enhance productivity on digital devices. Compared to approaches predicated on GUI metadata, which are platform-dependent and vulnerable to implementation variations, vision-based approaches offer broader applicability. In this vision-based paradigm, the GUI instruction grounding, which maps user instruction to the location of corresponding element on the given screenshot, remains a critical challenge, particularly due to limited public training dataset and resource-intensive manual instruction data annotation.In this paper, we delve into unexplored challenges in this task including element-to-screen ratio, unbalanced element type, and implicit instruction. To address these challenges, we introduce a large-scale data synthesis pipeline UI-E2I-Synth for generating varying complex instruction datasets using GPT-4o instead of human annotators. Furthermore, we propose a new GUI instruction grounding benchmark UI-I2E-Bench, which is designed to address the limitations of existing benchmarks by incorporating diverse annotation aspects. Our model, trained on the synthesized data, achieves superior performance in GUI instruction grounding, demonstrating the advancements of proposed data synthesis pipeline. The proposed benchmark, accompanied by extensive analyses, provides practical insights for future research in GUI grounding. We will release corresponding artifacts at https://colmon46.github.io/i2e-bench-leaderboard/

arxiv情報

著者 Xinyi Liu,Xiaoyi Zhang,Ziyun Zhang,Yan Lu
発行日 2025-04-15 14:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC | UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis はコメントを受け付けていません

Enhanced Small Target Detection via Multi-Modal Fusion and Attention Mechanisms: A YOLOv5 Approach

要約

情報技術の急速な発展に伴い、近代的な戦争はますます知性に依存しており、軍事用途では小さなターゲット検出が重要になっています。
効率的でリアルタイムの検出に対する需要の高まりは、干渉のために複雑な環境で小さなターゲットを特定する上で課題を生み出しています。
これに対処するために、マルチモーダル画像の融合と注意メカニズムに基づいた小さなターゲット検出方法を提案します。
この方法は、Yolov5を活用し、赤外線と可視光データを統合し、検出パフォーマンスを向上させるための畳み込み注意モジュールを統合します。
このプロセスは、機能ポイントマッチングを使用したマルチモーダルデータセット登録から始まり、正確なネットワークトレーニングを確保します。
赤外線と可視光の特徴を注意メカニズムと組み合わせることにより、モデルは検出の精度と堅牢性を向上させます。
抗UAVおよびVisdroneデータセットの実験結果は、私たちのアプローチの有効性と実用性を示し、小規模および薄暗いターゲットの優れた検出結果を達成します。

要約(オリジナル)

With the rapid development of information technology, modern warfare increasingly relies on intelligence, making small target detection critical in military applications. The growing demand for efficient, real-time detection has created challenges in identifying small targets in complex environments due to interference. To address this, we propose a small target detection method based on multi-modal image fusion and attention mechanisms. This method leverages YOLOv5, integrating infrared and visible light data along with a convolutional attention module to enhance detection performance. The process begins with multi-modal dataset registration using feature point matching, ensuring accurate network training. By combining infrared and visible light features with attention mechanisms, the model improves detection accuracy and robustness. Experimental results on anti-UAV and Visdrone datasets demonstrate the effectiveness and practicality of our approach, achieving superior detection results for small and dim targets.

arxiv情報

著者 Xiaoxiao Ma,Junxiong Tong
発行日 2025-04-15 15:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhanced Small Target Detection via Multi-Modal Fusion and Attention Mechanisms: A YOLOv5 Approach はコメントを受け付けていません

Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning

要約

モデルのマージは、シングルタスクチェックポイントをマルチタスクモデルに融合するための柔軟で計算上の扱いやすいアプローチです。
以前の作業は、サンプルとタスクの間に1対1のマッピングがある制約付きマルチタスク設定にのみ焦点を当てており、同じサンプル、たとえばシーンの理解で複数のタスクが動作するパラダイムを見落とす可能性があります。
このホワイトペーパーでは、シングルインプットマルチプレーット(SIMO)を使用したマルチタスク設定に焦点を当て、タスク固有のデコーダの存在と多様な損失目標の存在により、文献で研究されているシングルパットシングル出力モデルのマージ設定と定性的に異なることを示しています。
マージされたエンコーダーとタスク固有のデコーダーの間の表現の不整合により、既存のモデルのマージ方法が大幅にパフォーマンス低下につながることを特定します。
マージした後、フィーチャ表現を再調整するために、SIMO設定の2つのシンプルで効率的な修正を提案します。
ジョイントの微調整と比較して、私たちのアプローチは計算的に効果的で柔軟であり、オフラインでタスク関係を特定するために光を当てます。
NYUV2、Cityscapes、およびTaskonomy Datasetのサブセットに関する実験は、次のことを示しています。(1)マルチタスク機能を有効にするのに十分です。
ただし、マージされたエンコーダーによって生成される表現は、タスク固有のヘッドと再調整する必要があります。
(2)提案されたアーキテクチャは、パフォーマンスの従来のマルチタスク学習に匹敵しますが、タスク固有のモデルの存在を活用することにより、サンプルとトレーニングの手順が少なくなります。

要約(オリジナル)

Model merging is a flexible and computationally tractable approach to merge single-task checkpoints into a multi-task model. Prior work has solely focused on constrained multi-task settings where there is a one-to-one mapping between a sample and a task, overlooking the paradigm where multiple tasks may operate on the same sample, e.g., scene understanding. In this paper, we focus on the multi-task setting with single-input-multiple-outputs (SIMO) and show that it qualitatively differs from the single-input-single-output model merging settings studied in the literature due to the existence of task-specific decoders and diverse loss objectives. We identify that existing model merging methods lead to significant performance degradation, primarily due to representation misalignment between the merged encoder and task-specific decoders. We propose two simple and efficient fixes for the SIMO setting to re-align the feature representation after merging. Compared to joint fine-tuning, our approach is computationally effective and flexible, and sheds light into identifying task relationships in an offline manner. Experiments on NYUv2, Cityscapes, and a subset of the Taskonomy dataset demonstrate: (1) task arithmetic suffices to enable multi-task capabilities; however, the representations generated by the merged encoder has to be re-aligned with the task-specific heads; (2) the proposed architecture rivals traditional multi-task learning in performance but requires fewer samples and training steps by leveraging the existence of task-specific models.

arxiv情報

著者 Juan Garcia Giraldo,Nikolaos Dimitriadis,Ke Wang,Pascal Frossard
発行日 2025-04-15 15:10:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning はコメントを受け付けていません

Distillation-Supervised Convolutional Low-Rank Adaptation for Efficient Image Super-Resolution

要約

畳み込みニューラルネットワーク(CNNS)は、効率的な画像超解像度で広く使用されています。
ただし、CNNベースの方法では、パフォーマンスの向上は、多くの場合、より深いネットワークとより大きな機能マップを必要とするため、複雑さと推論コストが増加します。
Loraの大規模な言語モデルの微調整における成功に触発され、軽量モデルへの応用を調査し、蒸留監督の畳み込み低ランク適応(DSCLORA)を提案します。
具体的には、SPABモジュールを提案されたSCONVLBモジュールに置き換え、コンボロラ層をピクセルシャッフルブロックとその先行する畳み込み層の両方に組み込むことにより、効率的なSRネットワークスパンにコンバロラを統合します。
DSCLORAは、パラメーターの更新の低ランク分解を活用し、空間的特徴に基づく知識蒸留戦略を採用して、2次統計情報を教師モデル(事前訓練を受けたスパン)から学生モデル(私たちのもの)に転送します。
この方法は、軽量モデルのコア知識を保持し、特定の条件下で最適なソリューションの発見を促進します。
ベンチマークデータセットでの実験は、DSCloraがその効率と競争力のある画質を維持しながら、PSNRとSSIMをスパンで改善することを示しています。
特に、DSCloraは、NTIRE 2025 Efficient Super-Resolution Challengeの全体的なパフォーマンストラックで最初にランク付けされました。
私たちのコードとモデルは、https://github.com/yaozzz666/dscf-srで公開されています。

要約(オリジナル)

Convolutional neural networks (CNNs) have been widely used in efficient image super-resolution. However, for CNN-based methods, performance gains often require deeper networks and larger feature maps, which increase complexity and inference costs. Inspired by LoRA’s success in fine-tuning large language models, we explore its application to lightweight models and propose Distillation-Supervised Convolutional Low-Rank Adaptation (DSCLoRA), which improves model performance without increasing architectural complexity or inference costs. Specifically, we integrate ConvLoRA into the efficient SR network SPAN by replacing the SPAB module with the proposed SConvLB module and incorporating ConvLoRA layers into both the pixel shuffle block and its preceding convolutional layer. DSCLoRA leverages low-rank decomposition for parameter updates and employs a spatial feature affinity-based knowledge distillation strategy to transfer second-order statistical information from teacher models (pre-trained SPAN) to student models (ours). This method preserves the core knowledge of lightweight models and facilitates optimal solution discovery under certain conditions. Experiments on benchmark datasets show that DSCLoRA improves PSNR and SSIM over SPAN while maintaining its efficiency and competitive image quality. Notably, DSCLoRA ranked first in the Overall Performance Track of the NTIRE 2025 Efficient Super-Resolution Challenge. Our code and models are made publicly available at https://github.com/Yaozzz666/DSCF-SR.

arxiv情報

著者 Xinning Chai,Yao Zhang,Yuxuan Zhang,Zhengxue Cheng,Yingsheng Qin,Yucai Yang,Li Song
発行日 2025-04-15 15:12:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Distillation-Supervised Convolutional Low-Rank Adaptation for Efficient Image Super-Resolution はコメントを受け付けていません

Efficient Medical Image Restoration via Reliability Guided Learning in Frequency Domain

要約

医療画像の修復タスクは、低用量のCT画像除去、MRI超解像度、MRIアーティファクト除去など、多くの臨床シナリオで緊急の欲求を示す、劣化した観測から高品質の画像を回復することを目的としています。
洗練されたモジュールを使用した既存の深い学習ベースの修復方法によって達成された成功にもかかわらず、彼らは計算効率の高い再構築結果のレンダリングに苦労しています。
さらに、彼らは通常、修復結果の信頼性を無視しますが、これは医療システムではるかに緊急です。
これらの問題を緩和するために、周波数領域での信頼性誘導学習を介して軽量変圧器ベースの方法であるLRFormerを提示します。
具体的には、ベイジアンニューラルネットワーク(BNNS)の不確実性の定量化に触発されて、信頼できる病変セマンチックな事前生産者(RLPP)を開発します。
RLPPは、基本的な医療画像セグメンテーションモデルであるMedsamで複数の推論を実行することにより、十分に信頼できるプライアーを生成するために、確率的サンプリング操作を備えたモンテカルロ(MC)推定器を活用します。
さらに、空間ドメインにプライアーを直接組み込む代わりに、クロスアテナント(CA)メカニズムを、高速フーリエ変換(FFT)を介して実際の対称的および想像上の対称部分に分解し、誘導周波数交差基準(GFCA)ソルバーの設計をもたらします。
FFTの共役対称特性を活用することにより、GFCAはナイーブCaの計算の複雑さをほぼ半分に減らします。
さまざまなタスクでの広範な実験結果は、有効性と効率の両方において提案されたLRFORFORの優位性を示しています。

要約(オリジナル)

Medical image restoration tasks aim to recover high-quality images from degraded observations, exhibiting emergent desires in many clinical scenarios, such as low-dose CT image denoising, MRI super-resolution, and MRI artifact removal. Despite the success achieved by existing deep learning-based restoration methods with sophisticated modules, they struggle with rendering computationally-efficient reconstruction results. Moreover, they usually ignore the reliability of the restoration results, which is much more urgent in medical systems. To alleviate these issues, we present LRformer, a Lightweight Transformer-based method via Reliability-guided learning in the frequency domain. Specifically, inspired by the uncertainty quantification in Bayesian neural networks (BNNs), we develop a Reliable Lesion-Semantic Prior Producer (RLPP). RLPP leverages Monte Carlo (MC) estimators with stochastic sampling operations to generate sufficiently-reliable priors by performing multiple inferences on the foundational medical image segmentation model, MedSAM. Additionally, instead of directly incorporating the priors in the spatial domain, we decompose the cross-attention (CA) mechanism into real symmetric and imaginary anti-symmetric parts via fast Fourier transform (FFT), resulting in the design of the Guided Frequency Cross-Attention (GFCA) solver. By leveraging the conjugated symmetric property of FFT, GFCA reduces the computational complexity of naive CA by nearly half. Extensive experimental results in various tasks demonstrate the superiority of the proposed LRformer in both effectiveness and efficiency.

arxiv情報

著者 Pengcheng Zheng,Kecheng Chen,Jiaxin Huang,Bohao Chen,Ju Liu,Yazhou Ren,Xiaorong Pu
発行日 2025-04-15 15:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Efficient Medical Image Restoration via Reliability Guided Learning in Frequency Domain はコメントを受け付けていません

SCA: Highly Efficient Semantic-Consistent Unrestricted Adversarial Attack

要約

敏感な環境に展開された深いニューラルネットワークベースのシステムは、敵対的な攻撃に対して脆弱です。
無制限の敵対的な攻撃は、通常、画像のセマンティックコンテンツ(色やテクスチャなど)を操作して、効果的かつ光選挙的な両方の敵対的な例を作成します。
最近の作品では、拡散反転プロセスを利用して、画像を潜在空間にマッピングしました。そこでは、摂動を導入することで高レベルのセマンティクスが操作されます。
しかし、それらはしばしば、除去された出力にかなりの意味的な歪みをもたらし、効率が低いことに苦しんでいます。
この研究では、編集に優しいノイズマップを抽出し、マルチモーダル大手言語モデル(MLLM)を利用してプロセス全体でセマンティックガイダンスを提供するために反転方法を採用するセマンティックコンシンテーション無制限の敵対攻撃(SCA)と呼ばれる新しいフレームワークを提案します。
MLLMが提供する豊富なセマンティック情報の条件下で、一連の編集に優しいノイズマップを使用して各ステップのDDPM除去プロセスを実行し、DPMソルバー++を活用してこのプロセスを加速し、セマンティックの一貫性で効率的なサンプリングを可能にします。
既存の方法と比較して、私たちのフレームワークは、最小限の識別可能なセマンティックの変化を示す効率的な敵対例を可能にします。
その結果、初めてセマンティックな敵対例(SCAE)を紹介します。
広範な実験と視覚化により、SCAの高効率が高く、特に最先端の攻撃よりも平均12倍高速であることが実証されています。
私たちの研究は、マルチメディア情報のセキュリティにさらに注意を引くことができます。

要約(オリジナル)

Deep neural network based systems deployed in sensitive environments are vulnerable to adversarial attacks. Unrestricted adversarial attacks typically manipulate the semantic content of an image (e.g., color or texture) to create adversarial examples that are both effective and photorealistic. Recent works have utilized the diffusion inversion process to map images into a latent space, where high-level semantics are manipulated by introducing perturbations. However, they often results in substantial semantic distortions in the denoised output and suffers from low efficiency. In this study, we propose a novel framework called Semantic-Consistent Unrestricted Adversarial Attacks (SCA), which employs an inversion method to extract edit-friendly noise maps and utilizes Multimodal Large Language Model (MLLM) to provide semantic guidance throughout the process. Under the condition of rich semantic information provided by MLLM, we perform the DDPM denoising process of each step using a series of edit-friendly noise maps, and leverage DPM Solver++ to accelerate this process, enabling efficient sampling with semantic consistency. Compared to existing methods, our framework enables the efficient generation of adversarial examples that exhibit minimal discernible semantic changes. Consequently, we for the first time introduce Semantic-Consistent Adversarial Examples (SCAE). Extensive experiments and visualizations have demonstrated the high efficiency of SCA, particularly in being on average 12 times faster than the state-of-the-art attacks. Our research can further draw attention to the security of multimedia information.

arxiv情報

著者 Zihao Pan,Weibin Wu,Yuhang Cao,Zibin Zheng
発行日 2025-04-15 15:28:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SCA: Highly Efficient Semantic-Consistent Unrestricted Adversarial Attack はコメントを受け付けていません