要約
X線セキュリティアプリケーションの分野では、最小の詳細でも結果に大きな影響を与える可能性があります。
大量に閉塞されている、または意図的に隠されたオブジェクトは、人間の観察によるものであろうと高度な技術的アプリケーションを通じて、検出に大きな挑戦をもたらします。
特定のディープラーニング(DL)アーキテクチャは、畳み込みニューラルネットワーク(CNN)などのローカル情報の処理において強力なパフォーマンスを示していますが、他の人は遠い情報、たとえば変圧器の処理に優れています。
X線セキュリティイメージングでは、文献はCNNベースの方法の使用によって支配されていますが、前述の2つの主要アーキテクチャの統合は十分に調査されていません。
このホワイトペーパーでは、さまざまなハイブリッドCNNトランスフォーマーアーキテクチャを、一般的なCNNオブジェクト検出ベースライン、つまりYolov8に対して評価します。
特に、CNN(HGNETV2)とハイブリッドCNNトランスフォーカー(Next-vit-S)バックボーンは、異なるCNN/トランス検出ヘッド(Yolov8およびRT-Detr)と組み合わされます。
結果のアーキテクチャは、3つの挑戦的なパブリックX線検査データセット、つまりEDS、HIXRAY、およびPIDRAYで比較的評価されています。
興味深いことに、デフォルトのバックボーン(CSP-DarkNet53)を備えたYolov8検出器は、一般に、X線画像(EDSデータセットで起こるように)にドメイン分布シフトが組み込まれている場合、HixrayおよびPidrayデータセットで有利であることが示されていますが、ハイブリッドCNN-トランスフォーマーアーキテクチャーは堅牢性を示します。
オブジェクトレベルの検出パフォーマンスとオブジェクトサイズのエラー分析を含む詳細な比較評価結果は、各アーキテクチャの組み合わせの長所と短所を示し、将来の研究のためのガイドラインを提案します。
この研究で採用されているモデルのソースコードとネットワークの重みは、https://github.com/jgenc/xray-comparative-valuationで入手できます。
要約(オリジナル)
In the field of X-ray security applications, even the smallest details can significantly impact outcomes. Objects that are heavily occluded or intentionally concealed pose a great challenge for detection, whether by human observation or through advanced technological applications. While certain Deep Learning (DL) architectures demonstrate strong performance in processing local information, such as Convolutional Neural Networks (CNNs), others excel in handling distant information, e.g., transformers. In X-ray security imaging the literature has been dominated by the use of CNN-based methods, while the integration of the two aforementioned leading architectures has not been sufficiently explored. In this paper, various hybrid CNN-transformer architectures are evaluated against a common CNN object detection baseline, namely YOLOv8. In particular, a CNN (HGNetV2) and a hybrid CNN-transformer (Next-ViT-S) backbone are combined with different CNN/transformer detection heads (YOLOv8 and RT-DETR). The resulting architectures are comparatively evaluated on three challenging public X-ray inspection datasets, namely EDS, HiXray, and PIDray. Interestingly, while the YOLOv8 detector with its default backbone (CSP-DarkNet53) is generally shown to be advantageous on the HiXray and PIDray datasets, when a domain distribution shift is incorporated in the X-ray images (as happens in the EDS datasets), hybrid CNN-transformer architectures exhibit increased robustness. Detailed comparative evaluation results, including object-level detection performance and object-size error analysis, demonstrate the strengths and weaknesses of each architectural combination and suggest guidelines for future research. The source code and network weights of the models employed in this study are available at https://github.com/jgenc/xray-comparative-evaluation.
arxiv情報
著者 | Jorgen Cani,Christos Diou,Spyridon Evangelatos,Panagiotis Radoglou-Grammatikis,Vasileios Argyriou,Panagiotis Sarigiannidis,Iraklis Varlamis,Georgios Th. Papadopoulos |
発行日 | 2025-05-01 14:40:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google