要約
知覚コンピューティングの領域における典型的なタスクであるオブジェクト検出は、生成方法を使用して取り組むことができます。
本研究では、注釈付きエンティティの摂動境界ボックスで動作する除去拡散プロセスとしてオブジェクト検出を明確にするように設計された新しいフレームワークを紹介します。
このフレームワークは、\ textbf {conseconcydet}と呼ばれ、一貫性モデルとして知られる革新的な除去概念を活用します。
このモデルの特徴は、その自己整合性機能であり、モデルが歪んだ情報をいつでもその手付かずの状態にマッピングできるようにし、それによって\ textBf {“ sometpep noising ”}メカニズムを実現します。
このような属性は、モデルの運用効率を著しく高め、従来の拡散モデルとは一線を画します。
トレーニングフェーズ全体を通して、ConseconcyDetは、除去タスクを実行するためのモデルの根拠のある注釈と条件から派生したノイズ注入ボックスを使用して、拡散シーケンスを開始します。
その後、推論段階で、モデルは、正規分布からランダムにサンプリングされた境界ボックスから始まる除去サンプリング戦略を採用しています。
反復的な改良により、モデルは任意に生成されたボックスの品揃えを決定的な検出に変換します。
MS-COCOやLVISなどの標準的なベンチマークを採用する包括的な評価は、一貫性がパフォーマンスメトリックの他の先端検出器を上回ることを裏付けています。
私たちのコードは、https://anonymous.4open.science/r/consistencydet-37d5で入手できます。
要約(オリジナル)
Object detection, a quintessential task in the realm of perceptual computing, can be tackled using a generative methodology. In the present study, we introduce a novel framework designed to articulate object detection as a denoising diffusion process, which operates on the perturbed bounding boxes of annotated entities. This framework, termed \textbf{ConsistencyDet}, leverages an innovative denoising concept known as the Consistency Model. The hallmark of this model is its self-consistency feature, which empowers the model to map distorted information from any time step back to its pristine state, thereby realizing a \textbf{“few-step denoising”} mechanism. Such an attribute markedly elevates the operational efficiency of the model, setting it apart from the conventional Diffusion Model. Throughout the training phase, ConsistencyDet initiates the diffusion sequence with noise-infused boxes derived from the ground-truth annotations and conditions the model to perform the denoising task. Subsequently, in the inference stage, the model employs a denoising sampling strategy that commences with bounding boxes randomly sampled from a normal distribution. Through iterative refinement, the model transforms an assortment of arbitrarily generated boxes into definitive detections. Comprehensive evaluations employing standard benchmarks, such as MS-COCO and LVIS, corroborate that ConsistencyDet surpasses other leading-edge detectors in performance metrics. Our code is available at https://anonymous.4open.science/r/ConsistencyDet-37D5.
arxiv情報
著者 | Lifan Jiang,Zhihui Wang,Changmiao Wang,Ming Li,Jiaxu Leng,Xindong Wu |
発行日 | 2025-04-01 12:46:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google