要約
近代的な輸送システムの急速な発展と物流量の指数関数的な成長により、インテリジェントなX線ベースのセキュリティ検査システムが公共の安全に重要な役割を果たしています。
シングルビューX線装置は広く展開されていますが、強い視点依存性と不十分な特徴表現のために、複雑なスタッキングシナリオで密輸品を正確に識別するのに苦労しています。
これに対処するために、デュアルビューX線セキュリティ検査画像の分類に合わせて調整された革新的なマルチスケールインタラクティブ機能Fusion Frameworkを提案します。
フレームワークは、3つのコアモジュールで構成されています。周波数ドメインインタラクションモジュール(FDIM)は、フーリエ変換を介して周波数ドメイン機能を強化します。
マルチスケールのクロスビュー機能エンハンスメント(MSCFE)は、特徴の相互作用を強化するためのクロスビューの注意メカニズムを活用します。
畳み込み注意融合モジュール(CAFM)は、チャネルの注意を深さに分離する畳み込みと統合することにより、特徴を効率的に融合させます。
実験結果は、私たちの方法が、特に咬合とオブジェクトスタッキングを備えた複雑なシナリオで優れている、複数のバックボーンアーキテクチャにわたって既存の最先端のアプローチを上回ることを示しています。
要約(オリジナル)
With the rapid development of modern transportation systems and the exponential growth of logistics volumes, intelligent X-ray-based security inspection systems play a crucial role in public safety. Although single-view X-ray equipment is widely deployed, it struggles to accurately identify contraband in complex stacking scenarios due to strong viewpoint dependency and inadequate feature representation. To address this, we propose an innovative multi-scale interactive feature fusion framework tailored for dual-view X-ray security inspection image classification. The framework comprises three core modules: the Frequency Domain Interaction Module (FDIM) enhances frequency-domain features through Fourier transform; the Multi-Scale Cross-View Feature Enhancement (MSCFE) leverages cross-view attention mechanisms to strengthen feature interactions; and the Convolutional Attention Fusion Module (CAFM) efficiently fuses features by integrating channel attention with depthwise-separable convolutions. Experimental results demonstrate that our method outperforms existing state-of-the-art approaches across multiple backbone architectures, particularly excelling in complex scenarios with occlusions and object stacking.
arxiv情報
著者 | Shilong Hong,Yanzhou Zhou,Weichao Xu |
発行日 | 2025-04-08 14:20:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google