要約
ゼロショット学習は、微妙な 1 対 1 の視覚属性の相関関係をモデル化することで、一貫して目覚ましい進歩をもたらしてきました。
既存の研究は、サンプル領域とサブ属性を位置合わせして相関付けるために均一なマッピング関数を改良することに頼っており、次の 2 つの重要な問題を無視しています。1) 属性の固有の非対称性。
2)未使用チャネル情報。
このペーパーでは、デュアル エキスパート蒸留ネットワーク (DEDN) と呼ばれる、シンプルかつ効果的なアプローチを導入することでこれらの問題に対処します。このアプローチでは、2 人の専門家がそれぞれ粗粒度および粒度の細かい視覚属性モデリングに専念します。
具体的には、1 つの粗いエキスパート、つまり cExp は、次元全体で視覚属性の類似性メトリクスを調整するための完全な知覚スコープを持ち、さらに、別の細かいエキスパート、つまり fExp は、それぞれが排他的な属性セットに対応する複数の特殊なサブネットワークで構成されます。
2 人の専門家が協力して互いの情報を抽出し、トレーニング中に相互の合意に達します。
一方、我々はさらに、新たに設計されたバックボーン ネットワーク、すなわちデュアル アテンション ネットワーク (DAN) を DEDN に装備します。これには、領域とチャネルの両方のアテンション情報が組み込まれており、視覚的な意味論的な知識を最大限に活用および活用します。
さまざまなベンチマーク データセットでの実験は、新しい最先端の技術であることを示しています。
要約(オリジナル)
Zero-shot learning has consistently yielded remarkable progress via modeling nuanced one-to-one visual-attribute correlation. Existing studies resort to refining a uniform mapping function to align and correlate the sample regions and subattributes, ignoring two crucial issues: 1) the inherent asymmetry of attributes; and 2) the unutilized channel information. This paper addresses these issues by introducing a simple yet effective approach, dubbed Dual Expert Distillation Network (DEDN), where two experts are dedicated to coarse- and fine-grained visual-attribute modeling, respectively. Concretely, one coarse expert, namely cExp, has a complete perceptual scope to coordinate visual-attribute similarity metrics across dimensions, and moreover, another fine expert, namely fExp, consists of multiple specialized subnetworks, each corresponds to an exclusive set of attributes. Two experts cooperatively distill from each other to reach a mutual agreement during training. Meanwhile, we further equip DEDN with a newly designed backbone network, i.e., Dual Attention Network (DAN), which incorporates both region and channel attention information to fully exploit and leverage visual semantic knowledge. Experiments on various benchmark datasets indicate a new state-of-the-art.
arxiv情報
著者 | Zhijie Rao,Jingcai Guo,Xiaocheng Lu,Jingming Liang,Jie Zhang,Haozhao Wang,Kang Wei,Xiaofeng Cao |
発行日 | 2024-04-29 14:12:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google