要約
このホワイト ペーパーでは、エッジ コンピューティングなどのリソースに制約のある場合における、きめの細かい画像オブジェクト検出について考察します。
ディープ ラーニング (DL)、つまりディープ ニューラル ネットワーク (DNN) を使用した学習は、オブジェクト検出への主要なアプローチになりました。
正確なきめの細かい検出を実現するには、十分な大きさの DNN モデルと膨大な量のデータ注釈を採用する必要があります。これは、リソースに制約のある場合に最新の DL オブジェクト検出器を使用する際の課題をもたらします。
この目的のために、常識的な知識を活用して、粗粒度のオブジェクト検出器が正確な細粒度の検出結果を取得できるようにするアプローチを提案します。
具体的には、常識知識推論モジュール (CKIM) を導入して、ベンチマーク DL 検出器によって与えられた粗粒度のラベルを処理し、細粒度のラベルを生成します。
CKIM では、クリスプ ルールとファジー ルールに基づく推論の両方を検討します。
後者は、ターゲットのセマンティック ラベルのあいまいさを処理するために使用されます。
YOLOv4、Mobilenetv3-SSD、YOLOv7-tinyなど、いくつかの最新のDL検出器に基づいてメソッドを実装します。
実験結果は、精度、モデルサイズ、処理レイテンシーの点で、私たちのアプローチがベンチマーク検出器よりも著しく優れていることを示しています。
要約(オリジナル)
In this paper, we consider fine-grained image object detection in resource-constrained cases such as edge computing. Deep learning (DL), namely learning with deep neural networks (DNNs), has become the dominating approach to object detection. To achieve accurate fine-grained detection, one needs to employ a large enough DNN model and a vast amount of data annotations, which brings a challenge for using modern DL object detectors in resource-constrained cases. To this end, we propose an approach, which leverages commonsense knowledge to assist a coarse-grained object detector to get accurate fine-grained detection results. Specifically, we introduce a commonsense knowledge inference module (CKIM) to process coarse-grained lables given by a benchmark DL detector to produce fine-grained lables. We consider both crisp-rule and fuzzy-rule based inference in our CKIM; the latter is used to handle ambiguity in the target semantic labels. We implement our method based on several modern DL detectors, namely YOLOv4, Mobilenetv3-SSD and YOLOv7-tiny. Experiment results show that our approach outperforms benchmark detectors remarkably in terms of accuracy, model size and processing latency.
arxiv情報
著者 | Pu Zhang,Bin Liu |
発行日 | 2023-03-17 06:33:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google