Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well

要約

カモフラージュオブジェクトセグメンテーション(COS)は、カモフラージュされたオブジェクトと背景の微妙な視覚的な違いのため、依然として困難な問題のままです。
可視スペクトルから利用可能な非常に限られた視覚的キューにより、以前のRGBシングルモダリティアプローチは満足のいく結果を達成するのに苦労し、検出精度を高めるためにマルチモーダルデータの探索を促します。
この作業では、セグメンテーションパフォーマンスを改善するために多様なデータモダリティを効果的に活用する新しいフレームワークであるUnicosを提示します。
UNICOSは、マルチモーダルセグメント装置、UNISEG、およびクロスモーダルナレッジ学習モジュールであるUNILEARNERの2つの重要なコンポーネントで構成されています。
Unisegは、状態空間融合メカニズムを採用して、統一された状態空間内にクロスモーダル機能を統合し、コンテキストの理解を高め、不均一データの統合に堅牢性を向上させます。
さらに、特徴抽出を促進する融合フィードバックメカニズムが含まれています。
Unilearnerは、擬似モーダルコンテンツとクロスモーダルセマンティックアソシエーションを生成することにより、COSタスクとは無関係のMultimodal Dataをcosタスクに関連付けてCOSモデルのセグメンテーション能力を向上させます。
広範な実験では、ユニセグは、実際のまたは擬似マルチモーダルCOSデータが利用可能であるかどうかに関係なく、既存のマルチモーダルCOS(MCOS)セグメント装置を上回ることが示されています。
さらに、マルチモーダルCOSデータが利用できないがマルチモーダルの非COSデータにアクセスできるシナリオでは、Unilearnerはこれらのデータを効果的に活用してセグメンテーションパフォーマンスを強化します。
私たちのコードは、\ href {https://github.com/cnyvfang/unicos} {github}で公開されます。

要約(オリジナル)

Camouflaged Object Segmentation (COS) remains a challenging problem due to the subtle visual differences between camouflaged objects and backgrounds. Owing to the exceedingly limited visual cues available from visible spectrum, previous RGB single-modality approaches often struggle to achieve satisfactory results, prompting the exploration of multimodal data to enhance detection accuracy. In this work, we present UniCOS, a novel framework that effectively leverages diverse data modalities to improve segmentation performance. UniCOS comprises two key components: a multimodal segmentor, UniSEG, and a cross-modal knowledge learning module, UniLearner. UniSEG employs a state space fusion mechanism to integrate cross-modal features within a unified state space, enhancing contextual understanding and improving robustness to integration of heterogeneous data. Additionally, it includes a fusion-feedback mechanism that facilitate feature extraction. UniLearner exploits multimodal data unrelated to the COS task to improve the segmentation ability of the COS models by generating pseudo-modal content and cross-modal semantic associations. Extensive experiments demonstrate that UniSEG outperforms existing Multimodal COS (MCOS) segmentors, regardless of whether real or pseudo-multimodal COS data is available. Moreover, in scenarios where multimodal COS data is unavailable but multimodal non-COS data is accessible, UniLearner effectively exploits these data to enhance segmentation performance. Our code will be made publicly available on \href{https://github.com/cnyvfang/UniCOS}{GitHub}.

arxiv情報

著者 Chengyu Fang,Chunming He,Longxiang Tang,Yuelin Zhang,Chenyang Zhu,Yuqi Shen,Chubin Chen,Guoxia Xu,Xiu Li
発行日 2025-02-20 11:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well はコメントを受け付けていません

RhythmFormer: Extracting Patterned rPPG Signals based on Periodic Sparse Attention

要約

リモートフォトプレチスモグラフィ(RPPG)は、フェイシャルビデオに基づいた生理学的信号を検出するための非接触方法であり、さまざまなアプリケーションで高い可能性を保持しています。
RPPGシグナルの周期性の性質により、変圧器の長距離依存性キャプチャ容量は、そのようなシグナルにとって有利であると想定されていました。
ただし、既存の方法では、従来の畳み込みニューラルネットワークよりもトランスの優れた性能を最終的に実証していません。
これは、シーケンス長の変圧器によって示される二次スケーリングに起因する可能性があり、その結果、粗粒の特徴抽出が生じ、それが堅牢性と一般化に影響します。
それに対処するために、このペーパーでは、周期性によって引き起こされる一時的な注意スパース性に基づいた周期的なまばらな注意メカニズムを提案します。
従来の注意メカニズムの前に、出席前の段階が導入されます。
この段階は、多数の無関係な注意計算を除外するための定期的なパターンを学習し、したがって、細粒の特徴抽出を可能にします。
さらに、騒音干渉の影響を受けやすい細かい特徴の問題に対処するために、RPPGの特徴に対する自己関節を効果的に導くために融合ステムが提案されています。
既存の方法に簡単に統合して、パフォーマンスを向上させることができます。
広範な実験では、提案された方法が、データ準内とクロスダタセットの両方の評価で最先端のパフォーマンスを達成することを示しています。
コードはhttps://github.com/zizheng-guo/rhythmformerで入手できます。

要約(オリジナル)

Remote photoplethysmography (rPPG) is a non-contact method for detecting physiological signals based on facial videos, holding high potential in various applications. Due to the periodicity nature of rPPG signals, the long-range dependency capturing capacity of the transformer was assumed to be advantageous for such signals. However, existing methods have not conclusively demonstrated the superior performance of transformers over traditional convolutional neural networks. This may be attributed to the quadratic scaling exhibited by transformer with sequence length, resulting in coarse-grained feature extraction, which in turn affects robustness and generalization. To address that, this paper proposes a periodic sparse attention mechanism based on temporal attention sparsity induced by periodicity. A pre-attention stage is introduced before the conventional attention mechanism. This stage learns periodic patterns to filter out a large number of irrelevant attention computations, thus enabling fine-grained feature extraction. Moreover, to address the issue of fine-grained features being more susceptible to noise interference, a fusion stem is proposed to effectively guide self-attention towards rPPG features. It can be easily integrated into existing methods to enhance their performance. Extensive experiments show that the proposed method achieves state-of-the-art performance in both intra-dataset and cross-dataset evaluations. The codes are available at https://github.com/zizheng-guo/RhythmFormer.

arxiv情報

著者 Bochao Zou,Zizheng Guo,Jiansheng Chen,Junbao Zhuo,Weiran Huang,Huimin Ma
発行日 2025-02-20 12:02:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RhythmFormer: Extracting Patterned rPPG Signals based on Periodic Sparse Attention はコメントを受け付けていません

Temporal Misalignment and Probabilistic Neurons

要約

スパイクニューラルネットワーク(SNNS)は、生物学的神経原理を模倣することにより、人工ニューラルネットワーク(ANN)のよりエネルギー効率の高い代替品を提供し、大規模なニューラルモデルの増加するエネルギー需要を軽減するための有望なアプローチとして確立します。
ただし、SNNの機能を完全に活用すると、個別の信号処理と時間的ダイナミクスがあるため、依然として困難なままです。
ANN-SNNの変換は実用的なアプローチとして浮上しており、SNNが複雑な機械学習タスクで競争力のあるパフォーマンスを達成できるようになりました。
この作業では、SNN層全体のランダムスパイク再配置がパフォーマンスの改善につながる、時間的な不整合と呼ばれるANN-SNN変換フレームワークの現象を特定します。
この観察に基づいて、生物学的にもっともらしい2相の確率(TPP)スパイクニューロンを導入し、変換プロセスをさらに強化します。
私たちは、CIFAR-10/100、CIFAR10-DVS、およびImagenetの包括的な実験を通じて理論的および経験的に提案された方法の利点を示し、最先端の結果を達成します。

要約(オリジナル)

Spiking Neural Networks (SNNs) offer a more energy-efficient alternative to Artificial Neural Networks (ANNs) by mimicking biological neural principles, establishing them as a promising approach to mitigate the increasing energy demands of large-scale neural models. However, fully harnessing the capabilities of SNNs remains challenging due to their discrete signal processing and temporal dynamics. ANN-SNN conversion has emerged as a practical approach, enabling SNNs to achieve competitive performance on complex machine learning tasks. In this work, we identify a phenomenon in the ANN-SNN conversion framework, termed temporal misalignment, in which random spike rearrangement across SNN layers leads to performance improvements. Based on this observation, we introduce biologically plausible two-phase probabilistic (TPP) spiking neurons, further enhancing the conversion process. We demonstrate the advantages of our proposed method both theoretically and empirically through comprehensive experiments on CIFAR-10/100, CIFAR10-DVS, and ImageNet across a variety of architectures, achieving state-of-the-art results.

arxiv情報

著者 Velibor Bojković,Xiaofeng Wu,Bin Gu
発行日 2025-02-20 12:09:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Temporal Misalignment and Probabilistic Neurons はコメントを受け付けていません

CaRtGS: Computational Alignment for Real-Time Gaussian Splatting SLAM

要約

同時ローカリゼーションとマッピング(SLAM)は、ロボット工学では極めて重要であり、フォトリアリックなシーンの再構築が重要な課題として浮上しています。
これに対処するために、リアルタイム環境でのフォトリアリスティックシーンの再構築の効率と品質を高める新しい方法であるリアルタイムガウススプラッティングスラム(CARTG)の計算アラインメントを導入します。
3Dガウススプラッティング(3DG)を活用すると、CARTGは優れたレンダリング品質と処理速度を達成します。
私たちのアプローチは、最適化の繰り返しを強化し、長期尾の最適化に対処し、密度を改善する適応戦略を通じて、ガウスのスプラットスラム(GS-SLAM)の計算不整合に取り組みます。
レプリカ、TUM-RGBD、およびベクトルデータセットの実験は、ガウスのプリミティブが少ないため、忠実度の高いレンダリングを達成する際のCARTGSの有効性を示しています。
この作品は、リアルタイムの光リアリスティックな密なレンダリングに向かってスラムを推進し、光リアリスティックなシーンの表現を大幅に進めます。
研究コミュニティの利益のために、プロジェクトWebサイトhttps://dapengfeng.github.io/cartgsでコードと付随するビデオをリリースします。

要約(オリジナル)

Simultaneous Localization and Mapping (SLAM) is pivotal in robotics, with photorealistic scene reconstruction emerging as a key challenge. To address this, we introduce Computational Alignment for Real-Time Gaussian Splatting SLAM (CaRtGS), a novel method enhancing the efficiency and quality of photorealistic scene reconstruction in real-time environments. Leveraging 3D Gaussian Splatting (3DGS), CaRtGS achieves superior rendering quality and processing speed, which is crucial for scene photorealistic reconstruction. Our approach tackles computational misalignment in Gaussian Splatting SLAM (GS-SLAM) through an adaptive strategy that enhances optimization iterations, addresses long-tail optimization, and refines densification. Experiments on Replica, TUM-RGBD, and VECtor datasets demonstrate CaRtGS’s effectiveness in achieving high-fidelity rendering with fewer Gaussian primitives. This work propels SLAM towards real-time, photorealistic dense rendering, significantly advancing photorealistic scene representation. For the benefit of the research community, we release the code and accompanying videos on our project website: https://dapengfeng.github.io/cartgs.

arxiv情報

著者 Dapeng Feng,Zhiqiang Chen,Yizhen Yin,Shipeng Zhong,Yuhua Qi,Hongbo Chen
発行日 2025-02-20 12:14:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CaRtGS: Computational Alignment for Real-Time Gaussian Splatting SLAM はコメントを受け付けていません

CrossFuse: Learning Infrared and Visible Image Fusion by Cross-Sensor Top-K Vision Alignment and Beyond

要約

赤外線および可視画像融合(IVIF)は、ビデオ監視や自律運転システムなどの重要な分野でますます適用されています。
深い学習ベースの核融合方法には大きな進歩がありました。
ただし、これらのモデルは、実際のアプリケーションでは、分散型(OOD)シーンに頻繁に遭遇し、パフォーマンスと信頼性に大きな影響を与えます。
したがって、OODデータの課題に対処することは、オープンワールド環境でのこれらのモデルの安全な展開には重要です。
既存の研究とは異なり、私たちの焦点は、実際のアプリケーションでOODデータによってもたらされる課題と、モデルの堅牢性と一般化の強化にあります。
この論文では、マルチビューの増強に基づいて、赤外線可視融合フレームワークを提案します。
外部のデータ増強の場合、目に見える画像でRGBワイズ変換を実行することにより、データセット間の分布シフトを軽減するために、Top-K選択的視力アライメントが採用されています。
この戦略は、拡張サンプルを効果的に導入し、モデルの複雑な現実世界のシナリオへの適応性を高めます。
さらに、内部のデータ増強のために、弱い攻撃的な増強を使用して自己教師の学習が確立されます。
これにより、モデルは、融合プロセス中に、より堅牢で一般的な特徴表現を学習し、それにより堅牢性と一般化を改善できます。
広範な実験は、提案された方法がさまざまな条件や環境で優れた性能と堅牢性を示すことを示しています。
私たちのアプローチは、実際のアプリケーションでのIVIFタスクの信頼性と安定性を大幅に向上させます。

要約(オリジナル)

Infrared and visible image fusion (IVIF) is increasingly applied in critical fields such as video surveillance and autonomous driving systems. Significant progress has been made in deep learning-based fusion methods. However, these models frequently encounter out-of-distribution (OOD) scenes in real-world applications, which severely impact their performance and reliability. Therefore, addressing the challenge of OOD data is crucial for the safe deployment of these models in open-world environments. Unlike existing research, our focus is on the challenges posed by OOD data in real-world applications and on enhancing the robustness and generalization of models. In this paper, we propose an infrared-visible fusion framework based on Multi-View Augmentation. For external data augmentation, Top-k Selective Vision Alignment is employed to mitigate distribution shifts between datasets by performing RGB-wise transformations on visible images. This strategy effectively introduces augmented samples, enhancing the adaptability of the model to complex real-world scenarios. Additionally, for internal data augmentation, self-supervised learning is established using Weak-Aggressive Augmentation. This enables the model to learn more robust and general feature representations during the fusion process, thereby improving robustness and generalization. Extensive experiments demonstrate that the proposed method exhibits superior performance and robustness across various conditions and environments. Our approach significantly enhances the reliability and stability of IVIF tasks in practical applications.

arxiv情報

著者 Yukai Shi,Cidan Shi,Zhipeng Weng,Yin Tian,Xiaoyu Xian,Liang Lin
発行日 2025-02-20 12:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | CrossFuse: Learning Infrared and Visible Image Fusion by Cross-Sensor Top-K Vision Alignment and Beyond はコメントを受け付けていません

Nearshore Underwater Target Detection Meets UAV-borne Hyperspectral Remote Sensing: A Novel Hybrid-level Contrastive Learning Framework and Benchmark Dataset

要約

UAV媒介性過敏症のリモートセンシングは、水中ターゲット検出(UTD)の有望なアプローチとして浮上しています。
ただし、その有効性は、沿岸環境でのスペクトルの歪みによって妨げられており、これにより、海底地形モデルに依存する従来のハイパースペクトルUTD(HUTD)メソッドの精度が損なわれます。
これらの歪みは、ターゲットとバックグラウンドスペクトルの重大な不確実性につながり、検出プロセスに挑戦します。
これに対処するために、沿岸地域の堅牢なHUTDの自己ペースの学習パラダイムと対照的な学習を統合する新しいフレームワークである、ハイパースペクトル水中対照学習ネットワーク(HUCLNET)を提案します。
Huclnetは、対照学習を通じて歪んだ極端なデータから識別的特徴を抽出しますが、自己ペースの学習戦略は最も有益なサンプルを選択的に優先します。
さらに、信頼性ガイド付きクラスタリング戦略は、学習した表現の堅牢性を高めます。方法の有効性を評価するために、さまざまな水タイプと濁度、ターゲットタイプを備えた3つの多様なシナリオをカバーする新しい近距離HUTDベンチマークデータセットATR2-HUTDを実施します。
広範な実験は、Huclnetが最先端の方法を大幅に上回ることを示しています。
データセットとコードは、https://github.com/qjh1996/hutdで公開されます

要約(オリジナル)

UAV-borne hyperspectral remote sensing has emerged as a promising approach for underwater target detection (UTD). However, its effectiveness is hindered by spectral distortions in nearshore environments, which compromise the accuracy of traditional hyperspectral UTD (HUTD) methods that rely on bathymetric model. These distortions lead to significant uncertainty in target and background spectra, challenging the detection process. To address this, we propose the Hyperspectral Underwater Contrastive Learning Network (HUCLNet), a novel framework that integrates contrastive learning with a self-paced learning paradigm for robust HUTD in nearshore regions. HUCLNet extracts discriminative features from distorted hyperspectral data through contrastive learning, while the self-paced learning strategy selectively prioritizes the most informative samples. Additionally, a reliability-guided clustering strategy enhances the robustness of learned representations.To evaluate the method effectiveness, we conduct a novel nearshore HUTD benchmark dataset, ATR2-HUTD, covering three diverse scenarios with varying water types and turbidity, and target types. Extensive experiments demonstrate that HUCLNet significantly outperforms state-of-the-art methods. The dataset and code will be publicly available at: https://github.com/qjh1996/HUTD

arxiv情報

著者 Jiahao Qi,Chuanhong Zhou,Xingyue Liu,Chen Chen,Dehui Zhu,Kangcheng Bin,Ping Zhong
発行日 2025-02-20 12:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Nearshore Underwater Target Detection Meets UAV-borne Hyperspectral Remote Sensing: A Novel Hybrid-level Contrastive Learning Framework and Benchmark Dataset はコメントを受け付けていません

LXLv2: Enhanced LiDAR Excluded Lean 3D Object Detection with Fusion of 4D Radar and Camera

要約

以前の最先端の4Dレーダーカメラ融合ベースの3Dオブジェクト検出方法として、LXLは予測された画像深度分布マップとレーダー3D占有グリッドを利用して、サンプリングベースの画像ビューの変換を支援します。
ただし、深さの予測には精度と一貫性がなく、LXLの連結ベースの融合はモデルの堅牢性を妨げます。
この作業では、LXLV2を提案します。ここでは、制限を克服し、パフォーマンスを改善するために変更が加えられます。
具体的には、レーダー測定の位置誤差を考慮して、レーダーポイントを介して1対多くの深度監督戦略を考案します。ここでは、レーダー断面(RCS)値がさらに活用され、オブジェクトレベルの深さの一貫性のために監督領域を調整します。
さらに、CsaFusionという名前のチャネルと空間的注意ベースの融合モジュールが導入され、機能の適応性が向上します。
ビューオブデルフおよびTJ4Dradsetデータセットの実験結果は、提案されたLXLV2が検出精度、推論速度、堅牢性でLXLを上回ることができることを示しており、モデルの有効性を示しています。

要約(オリジナル)

As the previous state-of-the-art 4D radar-camera fusion-based 3D object detection method, LXL utilizes the predicted image depth distribution maps and radar 3D occupancy grids to assist the sampling-based image view transformation. However, the depth prediction lacks accuracy and consistency, and the concatenation-based fusion in LXL impedes the model robustness. In this work, we propose LXLv2, where modifications are made to overcome the limitations and improve the performance. Specifically, considering the position error in radar measurements, we devise a one-to-many depth supervision strategy via radar points, where the radar cross section (RCS) value is further exploited to adjust the supervision area for object-level depth consistency. Additionally, a channel and spatial attention-based fusion module named CSAFusion is introduced to improve feature adaptiveness. Experimental results on the View-of-Delft and TJ4DRadSet datasets show that the proposed LXLv2 can outperform LXL in detection accuracy, inference speed and robustness, demonstrating the effectiveness of the model.

arxiv情報

著者 Weiyi Xiong,Zean Zou,Qiuchi Zhao,Fengchun He,Bing Zhu
発行日 2025-02-20 12:31:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LXLv2: Enhanced LiDAR Excluded Lean 3D Object Detection with Fusion of 4D Radar and Camera はコメントを受け付けていません

PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large Vision-Language Models

要約

大規模なビジョン言語モデル(LVLMS)は、さまざまなマルチモーダルタスクにわたって顕著な機能を実証しています。
ただし、それらの推論効率は、デコード中に処理される多数の視覚トークンによって制約されます。
この課題に対処するために、レイヤーレベルの保持速度割り当てとヘッドレベルの視覚トークン剪定を含む2レベルの微粒剪定法である、層ごとのヘッド視力トークンプルーニング(PLPHP)を提案します。
Decoder層全体のVision Token Reatention現象によって動機付けられ、トークン保持速度層ごとに動的に調整します。
視覚情報に強い注意を払うレイヤーは、より多くのビジョントークンを維持しますが、視力の注意が低いレイヤーは積極的に剪定されます。
さらに、PLPHPは注意ヘッドレベルで剪定を適用し、同じレイヤー内の異なるヘッドを有効にして、重要なコンテキストを独立して保持します。
複数のベンチマークでの実験は、PLPHPがデコード速度18%を18%速くし、キー価値キャッシュ(kVキャッシュ)サイズを50%以上削減することを示しています。
– イメージタスク。
これらの結果は、細粒のトークン剪定の有効性を強調し、LVLMSの効率とスケーラビリティの進歩に貢献します。
ソースコードは公開されます。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across a range of multimodal tasks. However, their inference efficiency is constrained by the large number of visual tokens processed during decoding. To address this challenge, we propose Per-Layer Per-Head Vision Token Pruning (PLPHP), a two-level fine-grained pruning method including Layer-Level Retention Rate Allocation and Head-Level Vision Token Pruning. Motivated by the Vision Token Re-attention phenomenon across decoder layers, we dynamically adjust token retention rates layer by layer. Layers that exhibit stronger attention to visual information preserve more vision tokens, while layers with lower vision attention are aggressively pruned. Furthermore, PLPHP applies pruning at the attention head level, enabling different heads within the same layer to independently retain critical context. Experiments on multiple benchmarks demonstrate that PLPHP delivers an 18% faster decoding speed and reduces the Key-Value Cache (KV Cache) size by over 50%, all at the cost of 0.46% average performance drop, while also achieving notable performance improvements in multi-image tasks. These results highlight the effectiveness of fine-grained token pruning and contribute to advancing the efficiency and scalability of LVLMs. Our source code will be made publicly available.

arxiv情報

著者 Yu Meng,Kaiyuan Li,Chenran Huang,Chen Gao,Xinlei Chen,Yong Li,Xiaoping Zhang
発行日 2025-02-20 12:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large Vision-Language Models はコメントを受け付けていません

A Mobile Robotic Approach to Autonomous Surface Scanning in Legal Medicine

要約

目的:包括的な法的医療文書には、内部と死体の外部試験の両方が含まれます。
通常、この文書は、従来の剖検中に手動で行われます。
特に、法的医療分析に関連する傷の外部検査のために、体系的なデジタル文書が望ましいでしょう。
この目的のために、RGB表面スキャンが導入されました。
ハンドヘルドカメラを使用した手動の完全な表面スキャンはタイミックであり、オペレーターに依存していますが、床または天井に取り付けられたロボットシステムには、かなりのスペースと専用の部屋が必要です。
したがって、モバイルロボットシステムを外部ドキュメントに使用できるかどうかを検討します。
方法:フルボディRGB-D表面スキャンを可能にするモバイルロボットシステムを開発します。
私たちの作業には、表面スキャンを正常に実行するために検討する必要がある環境パラメーターを特定するための詳細な構成スペース分析が含まれています。
ラボでの実験的研究を通じて調査結果を検証し、法的医療環境でのシステムのアプリケーションを実証します。
結果:構成スペース分析は、3つのロボットベースの位置でカバレッジと時間の良いトレードオフに達し、94.96%のカバレッジに到達することを示しています。
実験では、体の幻の平均表面被覆率がそれぞれ96.90 +-3.16%および92.45 +-1.43%の体外幾何学をそれぞれ正確にキャプチャする際のシステムの有効性を検証します。
結論:この作業は、法的医療におけるRGB-D表面スキャンを自動化するモバイルロボットシステムの可能性を示しており、内部ドキュメンテーションのための死後CTスキャンの使用を補完します。
私たちの結果は、提案されたシステムがより効率的で自律的な法的医療文書に貢献し、手動介入の必要性を減らすことができることを示しています。

要約(オリジナル)

Purpose: Comprehensive legal medicine documentation includes both an internal but also an external examination of the corpse. Typically, this documentation is conducted manually during conventional autopsy. A systematic digital documentation would be desirable, especially for the external examination of wounds, which is becoming more relevant for legal medicine analysis. For this purpose, RGB surface scanning has been introduced. While a manual full surface scan using a handheld camera is timeconsuming and operator dependent, floor or ceiling mounted robotic systems require substantial space and a dedicated room. Hence, we consider whether a mobile robotic system can be used for external documentation. Methods: We develop a mobile robotic system that enables full-body RGB-D surface scanning. Our work includes a detailed configuration space analysis to identify the environmental parameters that need to be considered to successfully perform a surface scan. We validate our findings through an experimental study in the lab and demonstrate the system’s application in a legal medicine environment. Results: Our configuration space analysis shows that a good trade-off between coverage and time is reached with three robot base positions, leading to a coverage of 94.96 %. Experiments validate the effectiveness of the system in accurately capturing body surface geometry with an average surface coverage of 96.90 +- 3.16 % and 92.45 +- 1.43 % for a body phantom and actual corpses, respectively. Conclusion: This work demonstrates the potential of a mobile robotic system to automate RGB-D surface scanning in legal medicine, complementing the use of post-mortem CT scans for inner documentation. Our results indicate that the proposed system can contribute to more efficient and autonomous legal medicine documentation, reducing the need for manual intervention.

arxiv情報

著者 Sarah Grube,Sarah Latus,Martin Fischer,Vidas Raudonis,Axel Heinemann,Benjamin Ondruschka,Alexander Schlaefer
発行日 2025-02-20 12:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | A Mobile Robotic Approach to Autonomous Surface Scanning in Legal Medicine はコメントを受け付けていません

Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance

要約

3Dセマンティックシーンの完了(SSC)は、自律的な運転知覚のための包括的なシーンのジオメトリとセマンティクスを提供します。これは、正確で信頼できる意思決定を可能にするために重要です。
ただし、既存のSSCメソッドは、現在のフレームからまばらな情報をキャプチャするか、マルチフレームの時間的機能を素朴に積み重ねることに限定されているため、効果的なシーンコンテキストの取得に失敗します。
これらのアプローチは、重要な動きのダイナミクスを無視し、時間的一貫性を達成するために苦労しています。
上記の課題に対処するために、新しい時間的SSCメソッドフローセンを提案します。光フローガイダンスを介して時間的な3Dセマンティックシーンの完成を学習します。
光の流れを活用することにより、フローセンは動き、異なる視点、オクルージョン、およびその他の文脈的キューを統合することができ、それにより3Dシーンの完了の精度を大幅に改善します。
具体的には、我々のフレームワークでは、2つの重要なコンポーネントを紹介します。(1)光フローを使用して時間的特徴を整列および集約するフロー誘導時間集約モジュール、モーション認識コンテキストと変形可能な構造をキャプチャします。
(2)閉塞マスクと一時的に集約された特徴を3Dボクセル空間に注入するオクルージョン誘導ボクセル洗練モジュール。
実験結果は、FlowsceneがSemantickittiおよびSSCBench-Kitti-360ベンチマークで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

3D Semantic Scene Completion (SSC) provides comprehensive scene geometry and semantics for autonomous driving perception, which is crucial for enabling accurate and reliable decision-making. However, existing SSC methods are limited to capturing sparse information from the current frame or naively stacking multi-frame temporal features, thereby failing to acquire effective scene context. These approaches ignore critical motion dynamics and struggle to achieve temporal consistency. To address the above challenges, we propose a novel temporal SSC method FlowScene: Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance. By leveraging optical flow, FlowScene can integrate motion, different viewpoints, occlusions, and other contextual cues, thereby significantly improving the accuracy of 3D scene completion. Specifically, our framework introduces two key components: (1) a Flow-Guided Temporal Aggregation module that aligns and aggregates temporal features using optical flow, capturing motion-aware context and deformable structures; and (2) an Occlusion-Guided Voxel Refinement module that injects occlusion masks and temporally aggregated features into 3D voxel space, adaptively refining voxel representations for explicit geometric modeling. Experimental results demonstrate that FlowScene achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks.

arxiv情報

著者 Meng Wang,Fan Wu,Ruihui Li,Yunchuan Qin,Zhuo Tang,Kenli Li
発行日 2025-02-20 12:52:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance はコメントを受け付けていません