Multi-View Active Fine-Grained Recognition

要約

きめ細かい視覚的分類(FGVC)が何十年にもわたって開発されてきたため、関連する優れた研究により、識別可能な局所領域を見つけ、微妙な違いを明らかにするという重要な方向性が明らかになりました。
しかし、静止画像内の視覚的コンテンツを識別するのとは異なり、現実の物理世界でオブジェクトを認識するために、識別情報は、見られるローカル領域内に存在するだけでなく、他の見えない視点にも隠されます。
言い換えれば、全体から区別できる部分に焦点を当てるだけでなく、効率的かつ正確な認識のために、いくつかの目で重要な視点を推測する必要があります。たとえば、人々は一目で「ベンツAMGGT」を認識することができます。
その正面そしてそれからその排気管を見ることはそれがどの年のモデルであるかを知るのを助けることができることを知っている。
この論文では、現実に戻って、アクティブな細粒度認識(AFGR)の問題を提唱し、この調査を3つのステップで完了します。(i)階層型、マルチビュー、細粒度の車両データセットがテストベッドとして収集されます。
、(ii)単純な実験は、さまざまな視点がFGVCにさまざまに貢献し、さまざまなカテゴリがさまざまな識別的視点を所有していることを確認するように設計されています。(iii)ポリシー勾配ベースのフレームワークを採用して、アクティブなビュー選択で効率的な認識を実現します。
包括的な実験は、提案された方法が以前のFGVC方法および高度なニューラルネットワークよりも優れたパフォーマンス効率のトレードオフを提供することを示しています。

要約(オリジナル)

As fine-grained visual classification (FGVC) being developed for decades, great works related have exposed a key direction — finding discriminative local regions and revealing subtle differences. However, unlike identifying visual contents within static images, for recognizing objects in the real physical world, discriminative information is not only present within seen local regions but also hides in other unseen perspectives. In other words, in addition to focusing on the distinguishable part from the whole, for efficient and accurate recognition, it is required to infer the key perspective with a few glances, e.g., people may recognize a ‘Benz AMG GT’ with a glance of its front and then know that taking a look at its exhaust pipe can help to tell which year’s model it is. In this paper, back to reality, we put forward the problem of active fine-grained recognition (AFGR) and complete this study in three steps: (i) a hierarchical, multi-view, fine-grained vehicle dataset is collected as the testbed, (ii) a simple experiment is designed to verify that different perspectives contribute differently for FGVC and different categories own different discriminative perspective, (iii) a policy-gradient-based framework is adopted to achieve efficient recognition with active view selection. Comprehensive experiments demonstrate that the proposed method delivers a better performance-efficient trade-off than previous FGVC methods and advanced neural networks.

arxiv情報

著者 Ruoyi Du,Wenqing Yu,Heqing Wang,Dongliang Chang,Ting-En Lin,Yongbin Li,Zhanyu Ma
発行日 2022-06-02 17:12:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク