要約
コンピュータビジョンは、動物の行動、健康、福祉を監視するための新しいアプローチの開発を可能にします。
インスタンスのセグメンテーションは、関心のある個々の動物を検出するためのコンピュータビジョンにおける高精度の方法です。
この方法は、ビデオや画像から動物の微妙なインタラクティブな行動を調べるなど、動物の詳細な分析に使用できます。
ただし、既存の深層学習ベースのインスタンスセグメンテーション手法は、ほとんどが公開データセットに基づいて開発されており、重いオクルージョンの問題はほとんど省略されています。
したがって、これらの方法は、分娩箱が雌豚や子豚を妨げることが多い養豚場で使用される分娩ペンシステムなど、オブジェクトの閉塞を伴う実際のアプリケーションには制限があります。
この論文では、CClusnet-Insegと呼ばれる、セグメンテーションなどの新しい閉塞耐性センタークラスタリングネットワークを提案します。
具体的には、CClusnet-Insegは各ピクセルを使用してオブジェクトの中心を予測し、これらの中心をトレースして、クラスタリング結果に基づいてマスクを形成します。これは、セグメンテーション用のネットワークと中心オフセットベクトルマップ、ノイズのあるアプリケーションの密度ベースの空間クラスタリング(DBSCAN)アルゴリズムで構成されます。
、Centers-to-Mask(C2M)およびRemain-Centers-to-Mask(RC2M)アルゴリズム、および疑似オクルージョンジェネレーター(POG)。
私たちの方法を訓練し検証するために、6つの分娩ペンから収集された6つのビデオから合計4,600枚の画像が抽出されました。
CClusnet-Insegは、83.6の平均平均精度(mAP)を達成します。
これは、mAP値がそれぞれ81.2と74.7であるYOLACT++とMaskR-CNNを上回りました。
私たちは包括的なアブレーション研究を実施して、私たちの方法のコアモジュールの利点と有効性を実証します。
さらに、CClusnet-Insegを動物モニタリング用のマルチオブジェクト追跡に適用します。結合出力である予測オブジェクト中心は、オブジェクトの位置の閉塞耐性のある表現として機能する可能性があります。
要約(オリジナル)
Computer vision enables the development of new approaches to monitor the behavior, health, and welfare of animals. Instance segmentation is a high-precision method in computer vision for detecting individual animals of interest. This method can be used for in-depth analysis of animals, such as examining their subtle interactive behaviors, from videos and images. However, existing deep-learning-based instance segmentation methods have been mostly developed based on public datasets, which largely omit heavy occlusion problems; therefore, these methods have limitations in real-world applications involving object occlusions, such as farrowing pen systems used on pig farms in which the farrowing crates often impede the sow and piglets. In this paper, we propose a novel occlusion-resistant Center Clustering Network for instance segmentation, dubbed as CClusnet-Inseg. Specifically, CClusnet-Inseg uses each pixel to predict object centers and trace these centers to form masks based on clustering results, which consists of a network for segmentation and center offset vector map, Density-Based Spatial Clustering of Applications with Noise (DBSCAN) algorithm, Centers-to-Mask (C2M) and Remain-Centers-to-Mask (RC2M) algorithms, and a pseudo-occlusion generator (POG). In all, 4,600 images were extracted from six videos collected from six farrowing pens to train and validate our method. CClusnet-Inseg achieves a mean average precision (mAP) of 83.6; it outperformed YOLACT++ and Mask R-CNN, which had mAP values of 81.2 and 74.7, respectively. We conduct comprehensive ablation studies to demonstrate the advantages and effectiveness of core modules of our method. In addition, we apply CClusnet-Inseg to multi-object tracking for animal monitoring, and the predicted object center that is a conjunct output could serve as an occlusion-resistant representation of the location of an object.
arxiv情報
著者 | Endai Huang,Axiu Mao,Yongjian Wu,Haiming Gan,Maria Camila Ceballos,Thomas D. Parsons,Junhui Hou,Kai Liu |
発行日 | 2022-06-04 08:43:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google