Balancing Robustness and Efficiency in Embedded DNNs Through Activation Function Selection

要約

航空宇宙や自律運転など、安全性が批判的なアプリケーション用の機械学習ベースの組み込みシステムは、ソフトエラーによって引き起こされる摂動に対して堅牢でなければなりません。
トランジスタのジオメトリが縮小し、電圧が低下すると、最新の電子デバイスがバックグラウンド放射の影響を受けやすくなり、ソフトエラーによって生じる障害に関する懸念が高まります。
これらのエラーに対する深いニューラルネットワーク(DNNS)の回復力は、ターゲットデバイステクノロジーだけでなく、モデル構造とそのパラメーターの数値表現と算術精度にも依存します。
メモリフットプリントと計算の複雑さを減らすために使用される剪定や量子化などの圧縮技術は、モデル構造と表現の両方を変え、ソフトエラーの堅牢性に影響します。
この点では、しばしば見落とされがちですが、活性化関数(AFS)の選択は、精度と訓練性だけでなく、圧縮性とエラーの回復力にも影響します。
このホワイトペーパーでは、パラメーターの摂動に対する堅牢性を高めるために境界AFの使用を調査しながら、テクノロジーに依存しないアプローチでモデルの精度、圧縮率、計算負荷に対する影響を評価します。
自律運転システムへの適用を伴うハイパースペクトル画像のセマンティックセグメンテーション用に開発されたエンコーダーデコーダー畳み込みモデルに焦点を当てています。
実験は、AMD-XilinxのKV260 SOMで行われます。

要約(オリジナル)

Machine learning-based embedded systems for safety-critical applications, such as aerospace and autonomous driving, must be robust to perturbations caused by soft errors. As transistor geometries shrink and voltages decrease, modern electronic devices become more susceptible to background radiation, increasing the concern about failures produced by soft errors. The resilience of deep neural networks (DNNs) to these errors depends not only on target device technology but also on model structure and the numerical representation and arithmetic precision of their parameters. Compression techniques like pruning and quantization, used to reduce memory footprint and computational complexity, alter both model structure and representation, affecting soft error robustness. In this regard, although often overlooked, the choice of activation functions (AFs) impacts not only accuracy and trainability but also compressibility and error resilience. This paper explores the use of bounded AFs to enhance robustness against parameter perturbations, while evaluating their effects on model accuracy, compressibility, and computational load with a technology-agnostic approach. We focus on encoder-decoder convolutional models developed for semantic segmentation of hyperspectral images with application to autonomous driving systems. Experiments are conducted on an AMD-Xilinx’s KV260 SoM.

arxiv情報

著者 Jon Gutiérrez Zaballa,Koldo Basterretxea,Javier Echanobe
発行日 2025-04-07 14:21:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CV, cs.LG, eess.IV | Balancing Robustness and Efficiency in Embedded DNNs Through Activation Function Selection はコメントを受け付けていません

DA2Diff: Exploring Degradation-aware Adaptive Diffusion Priors for All-in-One Weather Restoration

要約

有害な気象条件下での画像修復は、多くのビジョンベースのアプリケーションにとって重要なタスクです。
統一されたモデル内で複数の天候の劣化を処理する最近のオールインワンフレームワークは、可能性を示しています。
ただし、さまざまな気象条件にわたる劣化パターンの多様性、および実際の劣化の複雑で多様な性質は、複数の気象除去に大きな課題をもたらします。
これらの課題に対処するために、DA2Diffと呼ばれるオールインワンの気象回復のための分解に対応する適応前の革新的な拡散パラダイムを提案します。
これは、マルチウェザーの復元を改善するために、劣化を意識する特性を認識するためにクリップを適用する新しい探索です。
具体的には、クリップ空間のプロンプトイメージの類似性の制約により、分解が認識される表現をキャプチャするために、学習可能なプロンプトのセットを展開します。
雪/かすんだ/雨の画像を雪/haze/雨のプロンプトで整列させることにより、それぞれのプロンプトは異なる気象劣化特性に貢献します。
学習されたプロンプトは、設計された気象固有のプロンプトガイダンスモジュールを介して拡散モデルに統合され、複数の気象タイプを復元できるようにします。
複雑な気象劣化への適応性をさらに向上させるために、ダイナミックな気象認識ルーターを採用して、各気象差別化された画像に対してさまざまな数の修復専門家を柔軟に派遣し、拡散モデルが多様な分解を適応的に回復できるようにする動的な専門家選択モジュレーターを提案します。
実験結果は、定量的および定性的評価における最先端に対するDA2DIFFの好ましいパフォーマンスを実証します。
ソースコードは受け入れた後に利用可能になります。

要約(オリジナル)

Image restoration under adverse weather conditions is a critical task for many vision-based applications. Recent all-in-one frameworks that handle multiple weather degradations within a unified model have shown potential. However, the diversity of degradation patterns across different weather conditions, as well as the complex and varied nature of real-world degradations, pose significant challenges for multiple weather removal. To address these challenges, we propose an innovative diffusion paradigm with degradation-aware adaptive priors for all-in-one weather restoration, termed DA2Diff. It is a new exploration that applies CLIP to perceive degradation-aware properties for better multi-weather restoration. Specifically, we deploy a set of learnable prompts to capture degradation-aware representations by the prompt-image similarity constraints in the CLIP space. By aligning the snowy/hazy/rainy images with snow/haze/rain prompts, each prompt contributes to different weather degradation characteristics. The learned prompts are then integrated into the diffusion model via the designed weather specific prompt guidance module, making it possible to restore multiple weather types. To further improve the adaptiveness to complex weather degradations, we propose a dynamic expert selection modulator that employs a dynamic weather-aware router to flexibly dispatch varying numbers of restoration experts for each weather-distorted image, allowing the diffusion model to restore diverse degradations adaptively. Experimental results substantiate the favorable performance of DA2Diff over state-of-the-arts in quantitative and qualitative evaluation. Source code will be available after acceptance.

arxiv情報

著者 Jiamei Xiong,Xuefeng Yan,Yongzhen Wang,Wei Zhao,Xiao-Ping Zhang,Mingqiang Wei
発行日 2025-04-07 14:38:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DA2Diff: Exploring Degradation-aware Adaptive Diffusion Priors for All-in-One Weather Restoration はコメントを受け付けていません

BoxSeg: Quality-Aware and Peer-Assisted Learning for Box-supervised Instance Segmentation

要約

Box Supervised Instanceセグメンテーション方法は、ボックスアノテーションのみを使用してインスタンスセグメンテーションを実現することを目的としています。
最近の方法は、教師と学生のフレームワークの下で高品質の擬似マスクを獲得することの有効性を実証しています。
この基盤の上に構築して、Quality-Awareモジュール(QAM)とピアアシストコピーパステ(PC)という名前の2つの斬新なモジュールと一般的なモジュールを含むBoxSegフレームワークを提案します。
QAMは高品質の擬似マスクを取得し、質の高いマルチマスク補完メカニズムを活用することにより、ノイズの多いマスクの効果を減らすためにマスク品質をよりよく測定します。
PCは、得られた高品質の擬似マスクの指導により、低品質のマスクの品質をさらに向上させるために、ピアアシストの学習を模倣しています。
理論的および実験的分析は、提案されたQAMとPCが効果的であることを示しています。
広範な実験結果は、最先端の方法よりもBoxSegの優位性を示し、QAMとPCを適用して他のモデルを改善することができます。

要約(オリジナル)

Box-supervised instance segmentation methods aim to achieve instance segmentation with only box annotations. Recent methods have demonstrated the effectiveness of acquiring high-quality pseudo masks under the teacher-student framework. Building upon this foundation, we propose a BoxSeg framework involving two novel and general modules named the Quality-Aware Module (QAM) and the Peer-assisted Copy-paste (PC). The QAM obtains high-quality pseudo masks and better measures the mask quality to help reduce the effect of noisy masks, by leveraging the quality-aware multi-mask complementation mechanism. The PC imitates Peer-Assisted Learning to further improve the quality of the low-quality masks with the guidance of the obtained high-quality pseudo masks. Theoretical and experimental analyses demonstrate the proposed QAM and PC are effective. Extensive experimental results show the superiority of our BoxSeg over the state-of-the-art methods, and illustrate the QAM and PC can be applied to improve other models.

arxiv情報

著者 Jinxiang Lai,Wenlong Wu,Jiawei Zhan,Jian Li,Bin-Bin Gao,Jun Liu,Jie Zhang,Song Guo
発行日 2025-04-07 14:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BoxSeg: Quality-Aware and Peer-Assisted Learning for Box-supervised Instance Segmentation はコメントを受け付けていません

EffOWT: Transfer Visual Language Models to Open-World Tracking Efficiently and Effectively

要約

Open-World Tracking(OWT)は、あらゆるカテゴリのすべてのオブジェクトを追跡することを目的としています。これにより、モデルに強力な一般化機能が必要です。
トラッカーは、視覚言語モデル(VLM)を活用することにより、一般化能力を向上させることができます。
ただし、VLMSがOWTに転送されると、微調整戦略で課題が生じます。完全な微調整により、過剰なパラメーターとメモリコストが発生し、ゼロショット戦略は最適なパフォーマンスにつながります。
問題を解決するために、EffowtはVLMをOWTに効率的に転送するために提案されています。
具体的には、VLMバックボーンの外に小さく独立した学習可能なサイドネットワークを構築します。
バックボーンを凍結し、サイドネットワークでBackPropagationのみを実行することにより、モデルの効率要件を満たすことができます。
さらに、Effowtは、OWTフィールドでのモデルのパフォーマンスを改善するために、変圧器とCNNのハイブリッド構造を提案することにより、サイドネットワークを強化します。
最後に、MLPにまばらな相互作用を実装するため、パラメーターの更新とメモリコストが大幅に削減されます。
提案された方法のおかげで、Effowtは未知のカテゴリの追跡メトリックOWTAで5.5%の絶対的なゲインを達成しますが、完全な微調整と比較してパラメーターの1.3%のみを更新し、36.4%のメモリを節約します。
他のメトリックも明らかな改善を示しています。

要約(オリジナル)

Open-World Tracking (OWT) aims to track every object of any category, which requires the model to have strong generalization capabilities. Trackers can improve their generalization ability by leveraging Visual Language Models (VLMs). However, challenges arise with the fine-tuning strategies when VLMs are transferred to OWT: full fine-tuning results in excessive parameter and memory costs, while the zero-shot strategy leads to sub-optimal performance. To solve the problem, EffOWT is proposed for efficiently transferring VLMs to OWT. Specifically, we build a small and independent learnable side network outside the VLM backbone. By freezing the backbone and only executing backpropagation on the side network, the model’s efficiency requirements can be met. In addition, EffOWT enhances the side network by proposing a hybrid structure of Transformer and CNN to improve the model’s performance in the OWT field. Finally, we implement sparse interactions on the MLP, thus reducing parameter updates and memory costs significantly. Thanks to the proposed methods, EffOWT achieves an absolute gain of 5.5% on the tracking metric OWTA for unknown categories, while only updating 1.3% of the parameters compared to full fine-tuning, with a 36.4% memory saving. Other metrics also demonstrate obvious improvement.

arxiv情報

著者 Bingyang Wang,Kaer Huang,Bin Li,Yiqiang Yan,Lihe Zhang,Huchuan Lu,You He
発行日 2025-04-07 14:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EffOWT: Transfer Visual Language Models to Open-World Tracking Efficiently and Effectively はコメントを受け付けていません

Stereo-LiDAR Fusion by Semi-Global Matching With Discrete Disparity-Matching Cost and Semidensification

要約

ライト検出とレンジ(LIDAR)データをステレオカメラ入力と融合するリアルタイムの非学習深度推定方法を提示します。
私たちのアプローチは、3つの重要な手法で構成されています。セミグローバルマッチング(SGM)ステレオが離散格差コスト(DDC)、LIDAR格差の半感受性、およびステレオ画像とLIDARデータを組み合わせた一貫性チェックです。
これらの各コンポーネントは、リアルタイムのパフォーマンスを実現するためにGPUの並列化のために設計されています。
Kittiデータセットで評価されたとき、提案された方法は2.79 \%のエラー率を達成し、3.05 \%のエラー率がある以前の最先端のリアルタイムステレオライダー融合法を上回りました。
さらに、さまざまなライダー点密度、さまざまな気象条件、屋内環境など、さまざまなシナリオで提案された方法をテストして、その高い適応性を実証しました。
私たちは、この方法のリアルタイムで非学習の性質により、ロボット工学と自動化のアプリケーションに非常に実用的であると考えています。

要約(オリジナル)

We present a real-time, non-learning depth estimation method that fuses Light Detection and Ranging (LiDAR) data with stereo camera input. Our approach comprises three key techniques: Semi-Global Matching (SGM) stereo with Discrete Disparity-matching Cost (DDC), semidensification of LiDAR disparity, and a consistency check that combines stereo images and LiDAR data. Each of these components is designed for parallelization on a GPU to realize real-time performance. When it was evaluated on the KITTI dataset, the proposed method achieved an error rate of 2.79\%, outperforming the previous state-of-the-art real-time stereo-LiDAR fusion method, which had an error rate of 3.05\%. Furthermore, we tested the proposed method in various scenarios, including different LiDAR point densities, varying weather conditions, and indoor environments, to demonstrate its high adaptability. We believe that the real-time and non-learning nature of our method makes it highly practical for applications in robotics and automation.

arxiv情報

著者 Yasuhiro Yao,Ryoichi Ishikawa,Takeshi Oishi
発行日 2025-04-07 14:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Stereo-LiDAR Fusion by Semi-Global Matching With Discrete Disparity-Matching Cost and Semidensification はコメントを受け付けていません

PanoDreamer: Consistent Text to 360-Degree Scene Generation

要約

テキストの説明、リファレンス画像、またはその両方から完全な3Dシーンを自動的に生成すると、仮想現実やゲームなどのフィールドに重要なアプリケーションがあります。
ただし、現在の方法は、多くの場合、低品質のテクスチャと一貫性のない3D構造を生成します。
これは、参照画像の視野を超えて大幅に外挿する場合に特に当てはまります。
これらの課題に対処するために、柔軟なテキストと画像制御を備えた一貫した3Dシーン生成のための新しいフレームワークであるPanodreamerを提案します。
私たちのアプローチでは、大規模な言語モデルとワープリファインパイプラインを採用しており、最初に最初の画像セットを生成し、次に360度のパノラマに合わせます。
次に、このパノラマを3Dに持ち上げて、初期ポイントクラウドを形成します。
次に、いくつかのアプローチを使用して、異なる視点から追加の画像を生成し、初期ポイントクラウドと一致し、初期ポイントクラウドを展開/改良します。
結果の画像のセットを考えると、3Dガウスのスプラッティングを利用して最終的な3Dシーンを作成し、異なる視点からレンダリングできます。
実験は、高品質で幾何学的に一貫した3Dシーンを生成する際のパノドリーマーの有効性を示しています。

要約(オリジナル)

Automatically generating a complete 3D scene from a text description, a reference image, or both has significant applications in fields like virtual reality and gaming. However, current methods often generate low-quality textures and inconsistent 3D structures. This is especially true when extrapolating significantly beyond the field of view of the reference image. To address these challenges, we propose PanoDreamer, a novel framework for consistent, 3D scene generation with flexible text and image control. Our approach employs a large language model and a warp-refine pipeline, first generating an initial set of images and then compositing them into a 360-degree panorama. This panorama is then lifted into 3D to form an initial point cloud. We then use several approaches to generate additional images, from different viewpoints, that are consistent with the initial point cloud and expand/refine the initial point cloud. Given the resulting set of images, we utilize 3D Gaussian Splatting to create the final 3D scene, which can then be rendered from different viewpoints. Experiments demonstrate the effectiveness of PanoDreamer in generating high-quality, geometrically consistent 3D scenes.

arxiv情報

著者 Zhexiao Xiong,Zhang Chen,Zhong Li,Yi Xu,Nathan Jacobs
発行日 2025-04-07 14:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PanoDreamer: Consistent Text to 360-Degree Scene Generation はコメントを受け付けていません

Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion

要約

Unified Image Fusionは、多様な融合タスクに適用される統一されたフレームワークを通じて、マルチソース画像から補完的な情報を統合し、画質を向上させることを目的としています。
すべての融合タスクを統一された問題として扱うことにより、タスク不変の知識共有が容易になりますが、タスク固有の特性を見落とし、それによって全体的なパフォーマンスが制限されます。
既存の一般的な画像融合方法には、さまざまな融合タスクへの適応を可能にするために、明示的なタスク識別が組み込まれています。
ただし、推論中のこの依存は、モデルの一般化が目に見えない融合タスクに対する制限を制限します。
これらの問題に対処するために、「Tita」という名前の新しい統一画像融合フレームワークを提案します。これは、タスク不変の相互作用とタスク固有の適応の両方を動的にバランスさせます。
タスクインバリアント相互作用のために、相互作用強化ピクセル注意(IPA)モジュールを導入して、マルチソースの相補的な情報抽出を改善するためのピクセルごとの相互作用を強化します。
タスク固有の適応のために、操作ベースの適応融合(OAF)モジュールは、タスクプロパティに基づいて動作の重みを動的に調整します。
さらに、共同トレーニング中のタスク間の勾配競合の影響を軽減するために、高速適応マルチタスク最適化(FAMO)戦略を組み込みます。
広範な実験は、Titaが3つの画像融合シナリオにわたる特殊な方法と比較して競争力のあるパフォーマンスを達成するだけでなく、目に見えない融合タスクに強い一般化を示すことを示しています。

要約(オリジナル)

Unified image fusion aims to integrate complementary information from multi-source images, enhancing image quality through a unified framework applicable to diverse fusion tasks. While treating all fusion tasks as a unified problem facilitates task-invariant knowledge sharing, it often overlooks task-specific characteristics, thereby limiting the overall performance. Existing general image fusion methods incorporate explicit task identification to enable adaptation to different fusion tasks. However, this dependence during inference restricts the model’s generalization to unseen fusion tasks. To address these issues, we propose a novel unified image fusion framework named ‘TITA’, which dynamically balances both Task-invariant Interaction and Task-specific Adaptation. For task-invariant interaction, we introduce the Interaction-enhanced Pixel Attention (IPA) module to enhance pixel-wise interactions for better multi-source complementary information extraction. For task-specific adaptation, the Operation-based Adaptive Fusion (OAF) module dynamically adjusts operation weights based on task properties. Additionally, we incorporate the Fast Adaptive Multitask Optimization (FAMO) strategy to mitigate the impact of gradient conflicts across tasks during joint training. Extensive experiments demonstrate that TITA not only achieves competitive performance compared to specialized methods across three image fusion scenarios but also exhibits strong generalization to unseen fusion tasks.

arxiv情報

著者 Xingyu Hu,Junjun Jiang,Chenyang Wang,Kui Jiang,Xianming Liu,Jiayi Ma
発行日 2025-04-07 15:08:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion はコメントを受け付けていません

Adversarial Robustness for Deep Learning-based Wildfire Prediction Models

要約

急速に成長する山火事は最近、社会資産を荒廃させ、救援活動を促進するために早期警告システムの重要なニーズを明らかにしています。
カメラベースのディープニューラルネットワーク(DNNS)を使用した煙検出は、山火事予測のための有望なソリューションを提供します。
ただし、時間と空間にわたる煙の希少性は、トレーニングデータを制限し、モデルの過剰適合とバイアスの懸念を引き起こします。
現在のDNNは、主に畳み込みニューラルネットワーク(CNNS)と変圧器が、建築の違いにより堅牢性の評価を複雑にしています。
これらの課題に対処するために、山火事検出モデルの敵対的堅牢性を評価するための最初のモデルに依存しないフレームワークであるWarp(Wildfire敵対的堅牢性手順)を紹介します。
ワープは、画像グロバルとローカルの摂動を通じて敵対的な例を生成することにより、データの多様性に固有の制限に対処します。
グローバルおよびローカル攻撃は、それぞれガウスノイズとPNGパッチを画像入力に重ね合わせます。
これは、現実的な敵対的なシナリオを生成しながら、CNNと変圧器の両方に適しています。
ワープを使用して、リアルタイムのCNNとトランスを評価し、重要な脆弱性を明らかにしました。
時には、変圧器は世界的な攻撃の下で70%以上の精密分解を示しましたが、両方のモデルは一般に、局所攻撃中に雲のようなPNGパッチを実際の煙と区別するのに苦労していました。
モデルの堅牢性を高めるために、煙イメージデータを多様化し、モデルの精度と堅牢性を向上させる、ワープの方法論と結果に基づいて、野火指向の4つのデータ増強技術を提案しました。
これらの進歩は、信頼できる初期の山火事警告システムを開発するための実質的なステップを表しています。

要約(オリジナル)

Rapidly growing wildfires have recently devastated societal assets, exposing a critical need for early warning systems to expedite relief efforts. Smoke detection using camera-based Deep Neural Networks (DNNs) offers a promising solution for wildfire prediction. However, the rarity of smoke across time and space limits training data, raising model overfitting and bias concerns. Current DNNs, primarily Convolutional Neural Networks (CNNs) and transformers, complicate robustness evaluation due to architectural differences. To address these challenges, we introduce WARP (Wildfire Adversarial Robustness Procedure), the first model-agnostic framework for evaluating wildfire detection models’ adversarial robustness. WARP addresses inherent limitations in data diversity by generating adversarial examples through image-global and -local perturbations. Global and local attacks superimpose Gaussian noise and PNG patches onto image inputs, respectively; this suits both CNNs and transformers while generating realistic adversarial scenarios. Using WARP, we assessed real-time CNNs and Transformers, uncovering key vulnerabilities. At times, transformers exhibited over 70% precision degradation under global attacks, while both models generally struggled to differentiate cloud-like PNG patches from real smoke during local attacks. To enhance model robustness, we proposed four wildfire-oriented data augmentation techniques based on WARP’s methodology and results, which diversify smoke image data and improve model precision and robustness. These advancements represent a substantial step toward developing a reliable early wildfire warning system, which may be our first safeguard against wildfire destruction.

arxiv情報

著者 Ryo Ide,Lei Yang
発行日 2025-04-07 15:10:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Adversarial Robustness for Deep Learning-based Wildfire Prediction Models はコメントを受け付けていません

SSLFusion: Scale & Space Aligned Latent Fusion Model for Multimodal 3D Object Detection

要約

深いニューラルネットワークに基づくマルチモーダル3Dオブジェクト検出は、実際に大きな進歩を遂げています。
ただし、2D画像から抽出された機能と3Dポイントクラウドから派生したものの間のスケールと空間情報の不整合により、課題に直面しています。
既存のメソッドは通常、単一の段階でマルチモーダル機能を集約します。
ただし、さまざまなスケールのオブジェクトを検出するには、マルチステージのクロスモーダル機能を活用することが重要です。
したがって、これらの方法は、さまざまなスケールとモダリティにわたって機能を効果的に統合することに苦労しているため、検出の精度を制限することがよくあります。
さらに、既存の方法でしばしば利用される時間のかかるクエリキーバリューベース(QKVベースの)クロスアテンション操作は、非ローカルコンテキストをキャプチャすることによりオブジェクトの位置と存在を推論するのに役立ちます。
ただし、このアプローチは計算の複雑さを高める傾向があります。
これらの課題に対処するために、スケールアライメント融合戦略(SAF)、3D対2Dスペースアライメントモジュール(SAM)、および潜在的なクロスモーダル融合モジュール(LFM)で構成される、新しいスケールとスペースアライメントの潜在的融合モデルであるSSLFusionを提示します。
SAFは、複数のレベルにわたって画像とポイントクラウドの両方の機能を集約することにより、モダリティ間のスケールの不整合を軽減します。
SAMは、3D座標情報を2D画像機能に組み込むことにより、画像とポイントクラウドからの機能間のモーダル間ギャップを削減するように設計されています。
さらに、LFMは、QKVベースの注意操作を使用せずに潜在空間でクロスモーダルの非ローカルコンテキストをキャプチャし、計算の複雑さを軽減します。
Kittiおよび密なデータセットでの実験は、SSLFusionが最先端の方法よりも優れていることを示しています。
私たちのアプローチは、3D APで2.15%の絶対的なゲインを獲得します。これは、キッティテストセットの中程度のレベルでの最先端のメソッドグラファリンと比較して得られます。

要約(オリジナル)

Multimodal 3D object detection based on deep neural networks has indeed made significant progress. However, it still faces challenges due to the misalignment of scale and spatial information between features extracted from 2D images and those derived from 3D point clouds. Existing methods usually aggregate multimodal features at a single stage. However, leveraging multi-stage cross-modal features is crucial for detecting objects of various scales. Therefore, these methods often struggle to integrate features across different scales and modalities effectively, thereby restricting the accuracy of detection. Additionally, the time-consuming Query-Key-Value-based (QKV-based) cross-attention operations often utilized in existing methods aid in reasoning the location and existence of objects by capturing non-local contexts. However, this approach tends to increase computational complexity. To address these challenges, we present SSLFusion, a novel Scale & Space Aligned Latent Fusion Model, consisting of a scale-aligned fusion strategy (SAF), a 3D-to-2D space alignment module (SAM), and a latent cross-modal fusion module (LFM). SAF mitigates scale misalignment between modalities by aggregating features from both images and point clouds across multiple levels. SAM is designed to reduce the inter-modal gap between features from images and point clouds by incorporating 3D coordinate information into 2D image features. Additionally, LFM captures cross-modal non-local contexts in the latent space without utilizing the QKV-based attention operations, thus mitigating computational complexity. Experiments on the KITTI and DENSE datasets demonstrate that our SSLFusion outperforms state-of-the-art methods. Our approach obtains an absolute gain of 2.15% in 3D AP, compared with the state-of-art method GraphAlign on the moderate level of the KITTI test set.

arxiv情報

著者 Bonan Ding,Jin Xie,Jing Nie,Jiale Cao
発行日 2025-04-07 15:15:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SSLFusion: Scale & Space Aligned Latent Fusion Model for Multimodal 3D Object Detection はコメントを受け付けていません

The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation

要約

モーション式ビデオセグメンテーションは、入力モーション式に従ってオブジェクトをセグメント化するように設計されています。
従来の参照ビデオオブジェクトセグメンテーション(RVO)とは対照的に、動きとマルチオブジェクト式に重点を置き、より困難にします。
最近、大規模なマルチモーダルモデル(LMM)は、強力なビジョン言語認識能力のためにRVOで輝き始めました。
この作業では、ビデオセグメンテーションを参照する際にLMMの可能性を完全に解き放つためのシンプルで効果的な推論最適化方法を提案します。
まず、SA2VAをベースラインとして使用します。これは、画像とビデオの両方を密集した理解のための統一されたLMMです。
第二に、推論プロセス中にビデオフレームを均一にサンプリングして、ビデオ全体のモデルの理解を高めます。
最後に、複数のエキスパートモデルの結果を統合して、単一のモデルの誤った予測を軽減します。
私たちのソリューションは、Mevisテストセットで61.98%J&Fを達成し、CVPR 2025で4番目のPVU Challenge Mevisトラックで1位にランクされました。

要約(オリジナル)

Motion expression video segmentation is designed to segment objects in accordance with the input motion expressions. In contrast to the conventional Referring Video Object Segmentation (RVOS), it places emphasis on motion as well as multi-object expressions, making it more arduous. Recently, Large Multimodal Models (LMMs) have begun to shine in RVOS due to their powerful vision-language perception capabilities. In this work, we propose a simple and effective inference optimization method to fully unleash the potential of LMMs in referring video segmentation. Firstly, we use Sa2VA as our baseline, which is a unified LMM for dense grounded understanding of both images and videos. Secondly, we uniformly sample the video frames during the inference process to enhance the model’s understanding of the entire video. Finally, we integrate the results of multiple expert models to mitigate the erroneous predictions of a single model. Our solution achieved 61.98% J&F on the MeViS test set and ranked 1st place in the 4th PVUW Challenge MeViS Track at CVPR 2025.

arxiv情報

著者 Hao Fang,Runmin Cong,Xiankai Lu,Zhiyang Chen,Wei Zhang
発行日 2025-04-07 15:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation はコメントを受け付けていません