要約
本フレームワークでは、物体はK個の異なるパーツから構成され、各パーツに対して、すべてのインスタンスとカテゴリで共有されるテンプレートの辞書を学習する。物体はK個の異なるパーツから構成され、各パーツに対して、全てのインスタンスとカテゴリで共有されるテンプレートの辞書を学習する。物体はこれらのK個のパーツの位置と、パーツの特徴を再構成できるアクティブテンプレートのセットを推定することで構文解析される。そして、そのアクティブテンプレートと部品位置の相対的な形状を、提示された数フレームのインスタンスのものと比較することで、テストインスタンスを認識する。本手法はエンドツーエンドで学習可能であり、畳み込みバックボーンの上で部品テンプレートを学習する。方向、姿勢、サイズなどの視覚的な歪みに対処するため、複数のスケールでテンプレートを学習し、テスト時にこれらのスケールに渡ってインスタンスを解析し照合する。本手法は最先端の技術に匹敵し、構文解析により解釈可能であることが示される。
要約(オリジナル)
We propose a new method for fine-grained few-shot recognition via deep object parsing.In our framework, an object is made up of K distinct parts and for each part, we learn a dictionary of templates, which is shared across all instances and categories. An object is parsed by estimating the locations of these K parts and a set of active templates that can reconstruct the part features. We recognize test instances by comparing its active templates and the relative geometry of its part locations against those of the presented few-shot instances. Our method is end-to-end trainable to learn part templates on-top of a convolutional backbone. To combat visual distortions such as orientation, pose and size, we learn templates at multiple scales, and at test-time parse and match instances across these scales. We show that our method is competitive with the state-of-the-art, and by virtue of parsing enjoys interpretability as well.
arxiv情報
著者 | Ruizhao Zhu,Pengkai Zhu,Samarth Mishra,Venkatesh Saligrama |
発行日 | 2022-10-04 14:26:17+00:00 |
arxivサイト | arxiv_id(pdf) |