要約
近年、ロゴ検出は、知的財産権保護、製品ブランド管理、ロゴの持続時間監視など、マルチメディア分野での幅広い応用が期待されており、ますます注目を集めている。一般的な物体検出と異なり、ロゴ検出は、特に実世界のシナリオにおける小さなロゴ物体やアスペクト比の大きなロゴ物体に対して困難なタスクである。本論文では、意味情報を集約し、異なるアスペクト比のアンカーボックスを生成することで、これらの課題に対処できるDSFP-GA (Discriminative Semantic Feature Pyramid Network with Guided Anchoring) と呼ばれる新しいアプローチを提案する。具体的には、DSFP(Discriminative Semantic Feature Pyramid)とGA(Guided Anchoring)から構成されています。低レベル特徴マップは意味情報に乏しいため、低レベル特徴マップをより識別性の高い意味情報に変換するDSFPを提案し、小ロゴ物体に対する性能を向上させる。さらに、プリセットされたアンカーボックスは、大きなアスペクト比のロゴオブジェクトを検出するためには効率が悪い。そこで我々は、この問題を軽減するために、GAを我々の手法に統合し、大きなアスペクト比のアンカーボックスを生成する。4つのベンチマークを用いた広範な実験結果により、提案するDSFP-GAの有効性を実証する。さらに、視覚分析とアブレーションの研究を行い、大小のアスペクト比のロゴオブジェクトを検出する際の本手法の優位性を示す。コードとモデルは https://github.com/Zhangbaisong/DSFP-GA に掲載されています。
要約(オリジナル)
Recently, logo detection has received more and more attention for its wide applications in the multimedia field, such as intellectual property protection, product brand management, and logo duration monitoring. Unlike general object detection, logo detection is a challenging task, especially for small logo objects and large aspect ratio logo objects in the real-world scenario. In this paper, we propose a novel approach, named Discriminative Semantic Feature Pyramid Network with Guided Anchoring (DSFP-GA), which can address these challenges via aggregating the semantic information and generating different aspect ratio anchor boxes. More specifically, our approach mainly consists of Discriminative Semantic Feature Pyramid (DSFP) and Guided Anchoring (GA). Considering that low-level feature maps that are used to detect small logo objects lack semantic information, we propose the DSFP, which can enrich more discriminative semantic features of low-level feature maps and can achieve better performance on small logo objects. Furthermore, preset anchor boxes are less efficient for detecting large aspect ratio logo objects. We therefore integrate the GA into our method to generate large aspect ratio anchor boxes to mitigate this issue. Extensive experimental results on four benchmarks demonstrate the effectiveness of our proposed DSFP-GA. Moreover, we further conduct visual analysis and ablation studies to illustrate the advantage of our method in detecting small and large aspect logo objects. The code and models can be found at https://github.com/Zhangbaisong/DSFP-GA.
arxiv情報
著者 | Baisong Zhang,Weiqing Min,Jing Wang,Sujuan Hou,Qiang Hou,Yuanjie Zheng,Shuqiang Jiang |
発行日 | 2023-01-06 07:03:55+00:00 |
arxivサイト | arxiv_id(pdf) |