要約
コンピュータ支援スクリーニング(CAS)システムの進歩は、X線手荷物検査におけるセキュリティ脅威の検出を改善するために不可欠である。しかし、現在のデータセットは、現実世界の高度な脅威や隠蔽戦術を表現するには限界があり、既存のアプローチは、事前に定義されたラベルを持つクローズドセットパラダイムに制約されている。これらの課題を解決するために、我々は、空港のセキュリティ用X線スキャナーを使用して生成された、21の脅威カテゴリーにわたる46,642の画像とキャプションのペアスキャンからなる、初のマルチモーダルX線手荷物セキュリティデータセットであるSTCrayを紹介する。STCrayは、X線手荷物セキュリティーにおけるマルチモーダルな指示データに続く、ドメインを意識した首尾一貫したキャプションを保証する、我々の特別なプロトコルで綿密に開発されている。これにより、STING-BEEと名付けられた領域を意識した視覚AIアシスタントを訓練することができ、シーン理解、脅威の特定、視覚的接地、視覚的質問応答(VQA)などの視覚言語タスクをサポートし、X線手荷物検査におけるマルチモーダル学習の新しいベースラインを確立する。さらに、STING-BEEは、領域横断的な設定において最先端の汎化を示しています。コード、データ、モデルはhttps://divs1159.github.io/STING-BEE/。
要約(オリジナル)
Advancements in Computer-Aided Screening (CAS) systems are essential for improving the detection of security threats in X-ray baggage scans. However, current datasets are limited in representing real-world, sophisticated threats and concealment tactics, and existing approaches are constrained by a closed-set paradigm with predefined labels. To address these challenges, we introduce STCray, the first multimodal X-ray baggage security dataset, comprising 46,642 image-caption paired scans across 21 threat categories, generated using an X-ray scanner for airport security. STCray is meticulously developed with our specialized protocol that ensures domain-aware, coherent captions, that lead to the multi-modal instruction following data in X-ray baggage security. This allows us to train a domain-aware visual AI assistant named STING-BEE that supports a range of vision-language tasks, including scene comprehension, referring threat localization, visual grounding, and visual question answering (VQA), establishing novel baselines for multi-modal learning in X-ray baggage security. Further, STING-BEE shows state-of-the-art generalization in cross-domain settings. Code, data, and models are available at https://divs1159.github.io/STING-BEE/.
arxiv情報
| 著者 | Divya Velayudhan,Abdelfatah Ahmed,Mohamad Alansari,Neha Gour,Abderaouf Behouch,Taimur Hassan,Syed Talal Wasim,Nabil Maalej,Muzammal Naseer,Juergen Gall,Mohammed Bennamoun,Ernesto Damiani,Naoufel Werghi |
| 発行日 | 2025-04-03 17:59:12+00:00 |
| arxivサイト | arxiv_id(pdf) |