要約
きめ細かな鳥類画像分類(FBIC)は、生態学的モニタリングや種の同定に大きな意義を持つだけでなく、画像認識やきめ細かな視覚モデリングの分野においても幅広い研究価値がある。一般的な画像分類タスクと比較して、FBICはより困難な課題を突きつけている:1)種の大きさと撮影距離の違いにより、画像に表示される鳥の大きさが異なること、2)複雑な自然の生息地では、しばしば強い背景干渉が生じること、3)飛行、止まり木、採餌などの非常に柔軟なポーズにより、クラス内変動が大きくなること。これらの要因が総合的に、従来の手法では識別特徴を安定的に抽出することが困難であり、その結果、実世界のアプリケーションにおけるモデルの一般化可能性と解釈可能性が制限される。これらの課題に対処するため、本論文では、ストリップを考慮した空間認識に基づく、きめ細かな鳥類分類フレームワークを提案する。このフレームワークは、鳥類画像の行または列全体にわたる長距離空間依存性を捉えることを目的とし、これによりモデルの頑健性と解釈可能性を高める。提案手法は、拡張知覚集約(EPA)とチャネル意味編み(CSW)という2つの新しいモジュールを組み込んでいる。具体的には、EPAは水平方向と垂直方向の空間的な情報を集約することで、局所的なテクスチャの詳細と大域的な構造的手がかりを統合する。CSWは、チャンネル次元に沿って長距離と短距離の情報を適応的に融合することにより、意味表現をさらに洗練させる。ResNet-50のバックボーン上に構築されたこのモデルは、空間領域全体にわたる拡張された構造的特徴のジャンプワイズ接続を可能にする。CUB-200-2011データセットでの実験結果は、我々のフレームワークがアーキテクチャの効率性を維持しながら、大幅な性能向上を達成したことを示している。
要約(オリジナル)
Fine-grained bird image classification (FBIC) is not only of great significance for ecological monitoring and species identification, but also holds broad research value in the fields of image recognition and fine-grained visual modeling. Compared with general image classification tasks, FBIC poses more formidable challenges: 1) the differences in species size and imaging distance result in the varying sizes of birds presented in the images; 2) complex natural habitats often introduce strong background interference; 3) and highly flexible poses such as flying, perching, or foraging result in substantial intra-class variability. These factors collectively make it difficult for traditional methods to stably extract discriminative features, thereby limiting the generalizability and interpretability of models in real-world applications. To address these challenges, this paper proposes a fine-grained bird classification framework based on strip-aware spatial perception, which aims to capture long-range spatial dependencies across entire rows or columns in bird images, thereby enhancing the model’s robustness and interpretability. The proposed method incorporates two novel modules: extensional perception aggregator (EPA) and channel semantic weaving (CSW). Specifically, EPA integrates local texture details with global structural cues by aggregating information across horizontal and vertical spatial directions. CSW further refines the semantic representations by adaptively fusing long-range and short-range information along the channel dimension. Built upon a ResNet-50 backbone, the model enables jump-wise connection of extended structural features across the spatial domain. Experimental results on the CUB-200-2011 dataset demonstrate that our framework achieves significant performance improvements while maintaining architectural efficiency.
arxiv情報
著者 | Zheng Wang |
発行日 | 2025-06-03 16:45:51+00:00 |
arxivサイト | arxiv_id(pdf) |