要約
ディープ ニューラル ネットワークを使用した教師なし物体の検出は、通常、学習された表現に関する保証がほとんどまたはまったくない難しい問題です。
この研究では、定量化可能な小さなシフトまで真の物体の位置を回復することが理論的に保証されている最初の教師なし物体検出方法を紹介します。
私たちは教師なし物体検出アーキテクチャを開発し、エンコーダとデコーダの受容野サイズ、物体サイズ、レンダリング プロセスで使用されるガウス分布の幅に関連する小さなシフトまで、学習された変数が真の物体の位置に対応することを証明します。
私たちは、誤差がこれらの各変数にどのように依存するかを詳細に分析し、個々のピクセルの精度に至るまで理論的予測を検証する合成実験を実行します。
また、CLEVR ベースのデータに対して実験を実行し、現在の SOTA オブジェクト検出方法 (SAM、CutLER) とは異なり、私たちの方法の予測誤差が常に理論的範囲内に収まることを示します。
この研究が、理論的に保証された物体検出方法の研究への道を開くのに役立つことを願っています。
要約(オリジナル)
Unsupervised object detection using deep neural networks is typically a difficult problem with few to no guarantees about the learned representation. In this work we present the first unsupervised object detection method that is theoretically guaranteed to recover the true object positions up to quantifiable small shifts. We develop an unsupervised object detection architecture and prove that the learned variables correspond to the true object positions up to small shifts related to the encoder and decoder receptive field sizes, the object sizes, and the widths of the Gaussians used in the rendering process. We perform detailed analysis of how the error depends on each of these variables and perform synthetic experiments validating our theoretical predictions up to a precision of individual pixels. We also perform experiments on CLEVR-based data and show that, unlike current SOTA object detection methods (SAM, CutLER), our method’s prediction errors always lie within our theoretical bounds. We hope that this work helps open up an avenue of research into object detection methods with theoretical guarantees.
arxiv情報
著者 | Marian Longa,João F. Henriques |
発行日 | 2024-06-11 14:12:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google