HB-net: Holistic bursting cell cluster integrated network for occluded multi-objects recognition

要約

画像認識の領域内では、視野内のオブジェクトが互いに遮蔽される可能性がある場合に、特定のカテゴリーのマルチラベル分類 (MLC) の課題が発生し、遮蔽されたオブジェクトと遮蔽されているオブジェクトの両方を同時に識別する必要があります。
従来の畳み込みニューラル ネットワーク (CNN) は、これらの課題に対処できます。
ただし、これらのモデルは大きくなる傾向があり、中程度の精度しか達成できません。
この論文では、最先端の神経科学研究、特にホリスティック バースティング (HB) セルからの洞察を活用して、HB-net という先駆的な統合ネットワーク フレームワークを紹介します。
HB 細胞クラスターの基礎に基づいて構築された HB-net は、画像内の複数の遮蔽されたオブジェクトを同時に認識するという複雑なタスクに対処するように設計されています。
さまざまなバースト セル クラスター構造が導入され、証拠蓄積メカニズムによって補完されます。
テストは、数字と文字で構成される複数のデータセットに対して実行されます。
結果は、HB フレームワークを組み込んだモデルは、HB フレームワークを含まないモデルと比較して、認識精度が $2.98\%$ 大幅に向上していることを示しています ($1.0298$ 倍、$p=0.0499$)。
高ノイズ設定では、標準 CNN は HB-net モデルと比較してわずかに高い堅牢性を示しますが、HB フレームワークと EA メカニズムを組み合わせたモデルは、畳み込み層が 3 つしかなく、約
パラメータの $1/30$。
この研究の結果は、コンピュータ ビジョン アルゴリズムを改善するための貴重な洞察を提供します。
重要なコードは https://github.com/d-lab438/hb-net.git で提供されます。

要約(オリジナル)

Within the realm of image recognition, a specific category of multi-label classification (MLC) challenges arises when objects within the visual field may occlude one another, demanding simultaneous identification of both occluded and occluding objects. Traditional convolutional neural networks (CNNs) can tackle these challenges; however, those models tend to be bulky and can only attain modest levels of accuracy. Leveraging insights from cutting-edge neural science research, specifically the Holistic Bursting (HB) cell, this paper introduces a pioneering integrated network framework named HB-net. Built upon the foundation of HB cell clusters, HB-net is designed to address the intricate task of simultaneously recognizing multiple occluded objects within images. Various Bursting cell cluster structures are introduced, complemented by an evidence accumulation mechanism. Testing is conducted on multiple datasets comprising digits and letters. The results demonstrate that models incorporating the HB framework exhibit a significant $2.98\%$ enhancement in recognition accuracy compared to models without the HB framework ($1.0298$ times, $p=0.0499$). Although in high-noise settings, standard CNNs exhibit slightly greater robustness when compared to HB-net models, the models that combine the HB framework and EA mechanism achieve a comparable level of accuracy and resilience to ResNet50, despite having only three convolutional layers and approximately $1/30$ of the parameters. The findings of this study offer valuable insights for improving computer vision algorithms. The essential code is provided at https://github.com/d-lab438/hb-net.git.

arxiv情報

著者 Xudong Gao,Xiao Guang Gao,Jia Rong,Xiaowei Chen,Xiang Liao,Jun Chen
発行日 2023-10-18 09:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク