Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition

要約

数ショットの行動認識のための現在の手法は、主にプロトタイプの重要性を示すProtoNetに続く計量学習の枠組みに分類される。これらは比較的良好な性能を達成しているが、ラベルテキストなどのマルチモーダル情報の効果は無視されている。本研究では、ラベルテキストの意味情報をマルチモーダル情報として利用し、プロトタイプを強化する新しいMultimOdal PRototype-ENhanced Network (MORN)を提案する。CLIPビジュアルエンコーダとフローズンCLIPテキストエンコーダを導入し、マルチモーダルな初期化を行う。視覚フローでは、例えばTemporal-Relational CrossTransformer (TRX)モジュールによって視覚的プロトタイプが計算される。テキストフローでは、セマンティック拡張(SE)モジュールと膨張演算がテキストプロトタイプを得るために使用される。最終的なマルチモーダルプロトタイプは、マルチモーダルプロトタイプ拡張(MPE)モジュールによって計算される。さらに、プロトタイプの品質を評価するためにPRIDE(PRototype SImilarity DiffErence)を定義し、プロトタイプレベルの改善とMORNの有効性を検証する。MORNはHMDB51、UCF101、Kinetics、SSv2で最先端の結果を達成した。PRIDEを学習ステージに組み込むと、性能はさらに向上する。

要約(オリジナル)

Current methods for few-shot action recognition mainly fall into the metric learning framework following ProtoNet, which demonstrates the importance of prototypes. Although they achieve relatively good performance, the effect of multimodal information is ignored, e.g. label texts. In this work, we propose a novel MultimOdal PRototype-ENhanced Network (MORN), which uses the semantic information of label texts as multimodal information to enhance prototypes. A CLIP visual encoder and a frozen CLIP text encoder are introduced to obtain features with good multimodal initialization. Then in the visual flow, visual prototypes are computed by a Temporal-Relational CrossTransformer (TRX) module for example. In the text flow, a semantic-enhanced (SE) module and an inflating operation are used to obtain text prototypes. The final multimodal prototypes are then computed by a multimodal prototype-enhanced (MPE) module. Besides, we define a PRototype SImilarity DiffErence (PRIDE) to evaluate the quality of prototypes, which is used to verify our improvement on the prototype level and effectiveness of MORN. We conduct extensive experiments on four popular datasets, and MORN achieves state-of-the-art results on HMDB51, UCF101, Kinetics and SSv2. When plugging PRIDE into the training stage, the performance can be further improved.

arxiv情報

著者 Xinzhe Ni,Yong Liu,Hao Wen,Yatai Ji,Jing Xiao,Yujiu Yang
発行日 2023-11-03 10:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク