要約
オーバーラップオブジェクトの知覚は、ランダムに重複する前景帯の特徴を切り離すことを目的としており、前景の特徴を抽出しながら前景機能を抽出し、セキュリティスクリーニングや医療補助診断などのフィールドに有意な応用値を保持します。
オブジェクトの知覚の重複の課題に取り組むためのいくつかの研究努力にもかかわらず、ほとんどのソリューションは空間ドメインに限定されます。
周波数ドメイン分析を通じて、重複する現象による輪郭とテクスチャの分解は、大きさスペクトルに直感的に反映されることがわかります。
この観察に基づいて、一般的な周波数最適化防止防止フレームワーク(フォーム)を提案して、モデルがより多くのテクスチャと輪郭情報を抽出するのを支援し、それによってオブジェクトを重複させるオブジェクト知覚の能力を高めます。
具体的には、周波数空間変圧器ブロック(FSTB)を設計します。これにより、周波数ドメインと空間ドメインの両方から機能を同時に抽出できるため、ネットワークが前景からより多くのテクスチャ機能をキャプチャできます。
さらに、トレーニングフェーズ中に特別に設計された一貫した損失を使用して、個別に構築されたベースブランチおよび腐敗分岐の隣接する機能を整列させる階層脱腐敗(HDC)メカニズムを導入します。
このメカニズムは、FSTBの無関係な背景特徴に対する反応を抑制し、それにより前景の輪郭の知覚を改善します。
提案されたフォームの有効性と一般化を検証するために広範な実験を実施します。これにより、4つのデータセットで最先端のモデルの精度がさらに向上します。
論文が受け入れられると、コードはオープンソースになります。
要約(オリジナル)
Overlapping object perception aims to decouple the randomly overlapping foreground-background features, extracting foreground features while suppressing background features, which holds significant application value in fields such as security screening and medical auxiliary diagnosis. Despite some research efforts to tackle the challenge of overlapping object perception, most solutions are confined to the spatial domain. Through frequency domain analysis, we observe that the degradation of contours and textures due to the overlapping phenomenon can be intuitively reflected in the magnitude spectrum. Based on this observation, we propose a general Frequency-Optimized Anti-Overlapping Framework (FOAM) to assist the model in extracting more texture and contour information, thereby enhancing the ability for anti-overlapping object perception. Specifically, we design the Frequency Spatial Transformer Block (FSTB), which can simultaneously extract features from both the frequency and spatial domains, helping the network capture more texture features from the foreground. In addition, we introduce the Hierarchical De-Corrupting (HDC) mechanism, which aligns adjacent features in the separately constructed base branch and corruption branch using a specially designed consistent loss during the training phase. This mechanism suppresses the response to irrelevant background features of FSTBs, thereby improving the perception of foreground contour. We conduct extensive experiments to validate the effectiveness and generalization of the proposed FOAM, which further improves the accuracy of state-of-the-art models on four datasets, specifically for the three overlapping object perception tasks: Prohibited Item Detection, Prohibited Item Segmentation, and Pneumonia Detection. The code will be open source once the paper is accepted.
arxiv情報
著者 | Mingyuan Li,Tong Jia,Han Gu,Hui Lu,Hao Wang,Bowen Ma,Shuyang Lin,Shiyi Guo,Shizhuo Deng,Dongyue Chen |
発行日 | 2025-06-16 13:58:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google