DiffusionDet: Diffusion Model for Object Detection

要約

ノイズの多いボックスからオブジェクト ボックスへのノイズ除去拡散プロセスとしてオブジェクト検出を定式化する新しいフレームワーク、DiffusionDet を提案します。
トレーニング段階では、オブジェクト ボックスはグラウンド トゥルース ボックスからランダムな分布に拡散し、モデルはこのノイズ プロセスを逆にすることを学習します。
推論では、モデルはランダムに生成された一連のボックスを段階的に出力結果に絞り込みます。
MS-COCO や LVIS などの標準ベンチマークでの広範な評価は、DiffusionDet が以前の確立された検出器と比較して良好なパフォーマンスを達成することを示しています。
私たちの研究は、物体検出において 2 つの重要な発見をもたらしました。
まず、ランダム ボックスは、事前定義されたアンカーや学習したクエリとは大きく異なりますが、効果的なオブジェクト候補でもあります。
第二に、代表的な知覚タスクの 1 つであるオブジェクト検出は、生成的な方法で解決できます。
コードは https://github.com/ShoufaChen/DiffusionDet で入手できます。

要約(オリジナル)

We propose DiffusionDet, a new framework that formulates object detection as a denoising diffusion process from noisy boxes to object boxes. During training stage, object boxes diffuse from ground-truth boxes to random distribution, and the model learns to reverse this noising process. In inference, the model refines a set of randomly generated boxes to the output results in a progressive way. The extensive evaluations on the standard benchmarks, including MS-COCO and LVIS, show that DiffusionDet achieves favorable performance compared to previous well-established detectors. Our work brings two important findings in object detection. First, random boxes, although drastically different from pre-defined anchors or learned queries, are also effective object candidates. Second, object detection, one of the representative perception tasks, can be solved by a generative way. Our code is available at https://github.com/ShoufaChen/DiffusionDet.

arxiv情報

著者 Shoufa Chen,Peize Sun,Yibing Song,Ping Luo
発行日 2022-11-17 18:56:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク