要約
ロボットシステムの認識能力は、データセットの豊富さに依存しています。
大規模なデータセットでトレーニングされたモデル2(SAM2)は、知覚タスクに強い知覚の可能性を示していますが、その固有のトレーニングパラダイムは、RGB-Tタスクに適していないことを防ぎます。
これらの課題に対処するために、SAM2駆動のハイブリッド相互作用パラダイムであるShifnetを提案します。これは、効率的なRGBサーマル知覚のための言語ガイダンスでSAM2の可能性を解き放ちます。
私たちのフレームワークは、2つの重要なコンポーネントで構成されています。(1)セマンティックアウェアクロスモーダル融合(SACF)モジュールは、テキスト誘導親和性学習を通じてモダリティの貢献を動的にバランスさせ、SAM2の固有のRGBバイアスを克服します。
(2)セマンティックエンハンスメントモジュールを介してグローバルなセマンティック情報を強化し、カテゴリの埋め込みと組み合わせてクロスモーダルセマンティックの一貫性を増幅する不均一なプロンプトデコーダー(HPD)。
32.27mのトレーニング可能なパラメーターで、Shifnetはパブリックベンチマークで最先端のセグメンテーションパフォーマンスを達成し、PST900で89.8%、FMBでそれぞれ67.8%に達します。
このフレームワークは、事前に訓練された大型モデルのRGB-Tセグメンテーションタスクへの適応を促進し、データ収集に関連する高コストを効果的に緩和し、包括的な認識能力を備えたロボットシステムを授与します。
ソースコードは、https://github.com/iasakit3t/shifnetで公開されます。
要約(オリジナル)
The perception capability of robotic systems relies on the richness of the dataset. Although Segment Anything Model 2 (SAM2), trained on large datasets, demonstrates strong perception potential in perception tasks, its inherent training paradigm prevents it from being suitable for RGB-T tasks. To address these challenges, we propose SHIFNet, a novel SAM2-driven Hybrid Interaction Paradigm that unlocks the potential of SAM2 with linguistic guidance for efficient RGB-Thermal perception. Our framework consists of two key components: (1) Semantic-Aware Cross-modal Fusion (SACF) module that dynamically balances modality contributions through text-guided affinity learning, overcoming SAM2’s inherent RGB bias; (2) Heterogeneous Prompting Decoder (HPD) that enhances global semantic information through a semantic enhancement module and then combined with category embeddings to amplify cross-modal semantic consistency. With 32.27M trainable parameters, SHIFNet achieves state-of-the-art segmentation performance on public benchmarks, reaching 89.8% on PST900 and 67.8% on FMB, respectively. The framework facilitates the adaptation of pre-trained large models to RGB-T segmentation tasks, effectively mitigating the high costs associated with data collection while endowing robotic systems with comprehensive perception capabilities. The source code will be made publicly available at https://github.com/iAsakiT3T/SHIFNet.
arxiv情報
著者 | Jiayi Zhao,Fei Teng,Kai Luo,Guoqiang Zhao,Zhiyong Li,Xu Zheng,Kailun Yang |
発行日 | 2025-03-04 13:04:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google