Confidence Estimation for Object Detection in Document Images

要約

ディープ ニューラル ネットワークはますます強力かつ大規模になりつつあり、常により多くのラベル付きデータをトレーニングする必要があります。
しかし、データにアノテーションを付けるには時間がかかるため、限られた量のデータで学習しながら優れたパフォーマンスを発揮するシステムを開発する必要があります。
これらのデータは、依然として効率的なモデルを取得するために正しく選択する必要があります。
このため、システムは、最良の結果を得るためにどのデータに注釈を付ける必要があるかを判断できなければなりません。
この論文では、物体検出予測の信頼性を推定するための 4 つの推定量を提案します。
最初の 2 つはモンテカルロ ドロップアウトに基づいており、3 番目は記述統計に基づいており、最後の 1 つは検出器の事後確率に基づいています。
アクティブ ラーニング フレームワークでは、最初の 3 つの推定量は、画像のランダムな選択と比較して、ドキュメントの物理ページとテキスト行の検出のパフォーマンスが大幅に向上することを示しています。
また、記述統計に基づく提案された推定量が MC ドロップアウトを置き換え、パフォーマンスを損なうことなく計算コストを削減できることも示します。

要約(オリジナル)

Deep neural networks are becoming increasingly powerful and large and always require more labelled data to be trained. However, since annotating data is time-consuming, it is now necessary to develop systems that show good performance while learning on a limited amount of data. These data must be correctly chosen to obtain models that are still efficient. For this, the systems must be able to determine which data should be annotated to achieve the best results. In this paper, we propose four estimators to estimate the confidence of object detection predictions. The first two are based on Monte Carlo dropout, the third one on descriptive statistics and the last one on the detector posterior probabilities. In the active learning framework, the three first estimators show a significant improvement in performance for the detection of document physical pages and text lines compared to a random selection of images. We also show that the proposed estimator based on descriptive statistics can replace MC dropout, reducing the computational cost without compromising the performances.

arxiv情報

著者 Mélodie Boillet,Christopher Kermorvant,Thierry Paquet
発行日 2022-08-29 06:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク