要約
ゼロ ショット検出 (ZSD) は、モデルが少数のターゲット (「見えない」) クラスの視覚サンプルでトレーニングされていない場合でも、オブジェクトの認識とローカライズを同時に行うことを目的とする困難なタスクです。
最近、GAN のような生成モデルを使用する方法がいくつかの最良の結果を示しました。そこでは、見えたクラスのデータでトレーニングされた GAN によってセマンティクスに基づいて見えないクラスのサンプルが生成され、バニラ オブジェクト検出器が見えないオブジェクトを認識できるようになります。
ただし、モデルが意味的に類似したクラスを区別できない場合があるという意味上の混乱の問題は依然として残っています。
この作業では、クラス間の非類似度を認識し、生成されたサンプルにそれらを反映するトリプレット損失を組み込んだ生成モデルをトレーニングすることを提案します。
さらに、クラスの生成された視覚的サンプルが独自のセマンティクスに高度に対応することを保証するために、循環一貫性の喪失も強制されます。
2 つのベンチマーク ZSD データセット (MSCOCO と PASCAL-VOC) での広範な実験により、現在の ZSD メソッドよりも大幅に向上し、セマンティックの混乱が軽減され、目に見えないクラスの検出が改善されることが実証されました。
要約(オリジナル)
Zero-shot detection (ZSD) is a challenging task where we aim to recognize and localize objects simultaneously, even when our model has not been trained with visual samples of a few target (‘unseen’) classes. Recently, methods employing generative models like GANs have shown some of the best results, where unseen-class samples are generated based on their semantics by a GAN trained on seen-class data, enabling vanilla object detectors to recognize unseen objects. However, the problem of semantic confusion still remains, where the model is sometimes unable to distinguish between semantically-similar classes. In this work, we propose to train a generative model incorporating a triplet loss that acknowledges the degree of dissimilarity between classes and reflects them in the generated samples. Moreover, a cyclic-consistency loss is also enforced to ensure that generated visual samples of a class highly correspond to their own semantics. Extensive experiments on two benchmark ZSD datasets – MSCOCO and PASCAL-VOC – demonstrate significant gains over the current ZSD methods, reducing semantic confusion and improving detection for the unseen classes.
arxiv情報
著者 | Sandipan Sarma,Sushil Kumar,Arijit Sur |
発行日 | 2022-12-12 18:11:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google