要約
視覚タスクの拡散モデルのアプリケーションは非常に注目に値します。
このホワイトペーパーでは、凍結拡散モデルを利用するパイプラインを提案することにより、オブジェクト認識のタスクのために、分類モデルをオクルージョンに対してより堅牢にすることを目標としています。
拡散機能は、画像のコンテキストを理解しながら、画像の生成と画像の完成に成功を示しています。
閉塞は、オクルーダーのピクセルを「欠落」とみなすことにより、画像完了の問題として提起することができます。
このような機能は、オクールドオブジェクトの背後にあるオブジェクトの視覚機能を幻覚にするのに役立つと仮定しているため、モデルがより閉塞堅牢になるようにそれらを使用することを提案します。
入力ベースの増強と特徴ベースの増強を含めるように実験を設計します。
入力ベースの増強には、Occluderピクセルが塗装されている画像の微調整が含まれ、特徴ベースの増強には、中間拡散機能を備えた分類機能の増強が含まれます。
提案された拡散ベースの特徴を使用すると、シミュレートされたオクルージョンを備えたImagenet上のトランスとコンベネットの両方の部分的なオブジェクト閉塞により堅牢なモデルが得られることを実証します。
また、実際の閉塞を包含するデータセットを提案し、私たちの方法が部分的なオブジェクトの閉塞により堅牢であることを実証します。
要約(オリジナル)
Applications of diffusion models for visual tasks have been quite noteworthy. This paper targets making classification models more robust to occlusions for the task of object recognition by proposing a pipeline that utilizes a frozen diffusion model. Diffusion features have demonstrated success in image generation and image completion while understanding image context. Occlusion can be posed as an image completion problem by deeming the pixels of the occluder to be `missing.’ We hypothesize that such features can help hallucinate object visual features behind occluding objects, and hence we propose using them to enable models to become more occlusion robust. We design experiments to include input-based augmentations as well as feature-based augmentations. Input-based augmentations involve finetuning on images where the occluder pixels are inpainted, and feature-based augmentations involve augmenting classification features with intermediate diffusion features. We demonstrate that our proposed use of diffusion-based features results in models that are more robust to partial object occlusions for both Transformers and ConvNets on ImageNet with simulated occlusions. We also propose a dataset that encompasses real-world occlusions and demonstrate that our method is more robust to partial object occlusions.
arxiv情報
著者 | Rupayan Mallick,Sibo Dong,Nataniel Ruiz,Sarah Adel Bargal |
発行日 | 2025-04-11 14:50:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google