要約
カモフラージュされた視覚認識は、多くの実際的な応用例がある重要な視覚タスクです。
収集とラベル付けのコストが高額なため、このコミュニティは、データセットの種カテゴリが少数の対象種に限定されているという大きなボトルネックに悩まされています。
しかし、既存の偽装生成方法では背景を手動で指定する必要があり、低コストで偽装サンプルの多様性を拡張することができませんでした。
本稿では、偽装画像生成のための潜在背景知識検索拡張拡散(LAKE-RED)を提案する。
私たちの知る限り、私たちの貢献は主に次のとおりです。 (1) 初めて、バックグラウンド入力を受け取る必要のない偽装生成パラダイムを提案します。
(2) 私たちの LAKE-RED は、偽装生成のための解釈可能性を備えた最初の知識検索拡張手法であり、タスク固有の課題を軽減するために、知識検索と推論強化を明示的に分離するというアイデアを提案します。
さらに、私たちの方法は特定の前景ターゲットや背景に限定されず、カモフラージュされた視覚認識をより多様な領域に拡張する可能性を提供します。
(3) 実験結果は、私たちの方法が既存のアプローチよりも優れており、より現実的な迷彩画像を生成することを示しています。
要約(オリジナル)
Camouflaged vision perception is an important vision task with numerous practical applications. Due to the expensive collection and labeling costs, this community struggles with a major bottleneck that the species category of its datasets is limited to a small number of object species. However, the existing camouflaged generation methods require specifying the background manually, thus failing to extend the camouflaged sample diversity in a low-cost manner. In this paper, we propose a Latent Background Knowledge Retrieval-Augmented Diffusion (LAKE-RED) for camouflaged image generation. To our knowledge, our contributions mainly include: (1) For the first time, we propose a camouflaged generation paradigm that does not need to receive any background inputs. (2) Our LAKE-RED is the first knowledge retrieval-augmented method with interpretability for camouflaged generation, in which we propose an idea that knowledge retrieval and reasoning enhancement are separated explicitly, to alleviate the task-specific challenges. Moreover, our method is not restricted to specific foreground targets or backgrounds, offering a potential for extending camouflaged vision perception to more diverse domains. (3) Experimental results demonstrate that our method outperforms the existing approaches, generating more realistic camouflage images.
arxiv情報
著者 | Pancheng Zhao,Peng Xu,Pengda Qin,Deng-Ping Fan,Zhicheng Zhang,Guoli Jia,Bowen Zhou,Jufeng Yang |
発行日 | 2024-07-12 16:28:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google