ConsistencyDet: Robust Object Detector with Denoising Paradigm of Consistency Model

要約

知覚コンピューティングの分野における典型的なタスクであるオブジェクト検出は、生成手法を使用して取り組むことができます。
本研究では、注釈付きエンティティの摂動境界ボックスに作用するノイズ除去拡散プロセスとして物体検出を明確にするように設計された新しいフレームワークを導入します。
ConsistencyDet と呼ばれるこのフレームワークは、一貫性モデルとして知られる革新的なノイズ除去の概念を活用しています。
このモデルの特徴は自己一貫性機能であり、これによりモデルは、歪んだ情報を任意の時間段階から元の状態にマップし、それによって「ワンステップノイズ除去」メカニズムを実現できます。
このような特性により、従来の拡散モデルとは一線を画し、モデルの運用効率が大幅に向上します。
トレーニング フェーズ全体を通じて、ConsistencyDet は、グラウンド トゥルース アノテーションから派生したノイズ注入ボックスを使用して拡散シーケンスを開始し、ノイズ除去タスクを実行するようにモデルを条件付けします。
その後、推論段階で、モデルは正規分布からランダムにサンプリングされた境界ボックスから始まるノイズ除去サンプリング戦略を採用します。
反復的な改良を通じて、モデルは任意に生成された一連のボックスを最終的な検出に変換します。
MS-COCO や LVIS などの標準ベンチマークを使用した包括的な評価により、ConsistencyDet がパフォーマンス指標において他の最先端の検出器を上回っていることが裏付けられています。

要約(オリジナル)

Object detection, a quintessential task in the realm of perceptual computing, can be tackled using a generative methodology. In the present study, we introduce a novel framework designed to articulate object detection as a denoising diffusion process, which operates on perturbed bounding boxes of annotated entities. This framework, termed ConsistencyDet, leverages an innovative denoising concept known as the Consistency Model. The hallmark of this model is its self-consistency feature, which empowers the model to map distorted information from any temporal stage back to its pristine state, thereby realizing a “one-step denoising” mechanism. Such an attribute markedly elevates the operational efficiency of the model, setting it apart from the conventional Diffusion Model. Throughout the training phase, ConsistencyDet initiates the diffusion sequence with noise-infused boxes derived from the ground-truth annotations and conditions the model to perform the denoising task. Subsequently, in the inference stage, the model employs a denoising sampling strategy that commences with bounding boxes randomly sampled from a normal distribution. Through iterative refinement, the model transforms an assortment of arbitrarily generated boxes into the definitive detections. Comprehensive evaluations employing standard benchmarks, such as MS-COCO and LVIS, corroborate that ConsistencyDet surpasses other leading-edge detectors in performance metrics.

arxiv情報

著者 Lifan Jiang,Zhihui Wang,Changmiao Wang,Ming Li,Jiaxu Leng,Xindong Wu
発行日 2024-04-11 14:08:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク