Fine-grained Few-shot Recognition by Deep Object Parsing


私たちのフレームワークでは、オブジェクトは K 個の個別のパーツで構成されており、パーツごとに、すべてのインスタンスとカテゴリで共有されるテンプレートの辞書を学習します。
オブジェクトは、これらの K 個のパーツの位置と、パーツの特徴を再構築できる一連のアクティブなテンプレートを推定することによって解析されます。
アクティブなテンプレートとパーツ位置の相対的なジオメトリを、提示された少数ショット インスタンスのものと比較することで、テスト インスタンスを認識します。


We propose a new method for fine-grained few-shot recognition via deep object parsing. In our framework, an object is made up of K distinct parts and for each part, we learn a dictionary of templates, which is shared across all instances and categories. An object is parsed by estimating the locations of these K parts and a set of active templates that can reconstruct the part features. We recognize test instances by comparing its active templates and the relative geometry of its part locations against those of the presented few-shot instances. Our method is end-to-end trainable to learn part templates on-top of a convolutional backbone. To combat visual distortions such as orientation, pose and size, we learn templates at multiple scales, and at test-time parse and match instances across these scales. We show that our method is competitive with the state-of-the-art, and by virtue of parsing enjoys interpretability as well.


著者 Ruizhao Zhu,Pengkai Zhu,Samarth Mishra,Venkatesh Saligrama
発行日 2022-10-13 15:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク