Multi-view Distillation based on Multi-modal Fusion for Few-shot Action Recognition(CLIP-$\mathrm{M^2}$DF)

要約

近年、少ないショットでの動作認識が注目を集めています。
一般にメタ学習のパラダイムを採用します。
この分野では、クラスと外れ値の重複分布を克服することは、限られたサンプルに基づいた依然として難しい問題です。
マルチモーダルとマルチビューを組み合わせることで、情報の補完性に応じてこの問題を改善できると考えています。
そこで、マルチモーダルフュージョンに基づく多視点蒸留手法を提案します。
まず、サポートのプロンプト埋め込みとクエリの視覚的埋め込みの間の比較スコアに基づいて確率プロンプト埋め込みを生成するために、クエリの確率プロンプト セレクターが構築されます。
次に、マルチビューを確立します。
各ビューでは、一貫した情報としてのプロンプト埋め込みを視覚的およびグローバルまたはローカルの時間的コンテキストと融合して、クラスと外れ値の重複分布を克服します。
第三に、マルチビューの距離融合と、あるビューから別のビューへのマッチング能力の相互蒸留を実行し、モデルが分布の偏りに対してより堅牢になるようにします。
コードは URL: \url{https://github.com/cofly2014/MDMF} で入手できます。

要約(オリジナル)

In recent years, few-shot action recognition has attracted increasing attention. It generally adopts the paradigm of meta-learning. In this field, overcoming the overlapping distribution of classes and outliers is still a challenging problem based on limited samples. We believe the combination of Multi-modal and Multi-view can improve this issue depending on information complementarity. Therefore, we propose a method of Multi-view Distillation based on Multi-modal Fusion. Firstly, a Probability Prompt Selector for the query is constructed to generate probability prompt embedding based on the comparison score between the prompt embeddings of the support and the visual embedding of the query. Secondly, we establish a Multi-view. In each view, we fuse the prompt embedding as consistent information with visual and the global or local temporal context to overcome the overlapping distribution of classes and outliers. Thirdly, we perform the distance fusion for the Multi-view and the mutual distillation of matching ability from one to another, enabling the model to be more robust to the distribution bias. Our code is available at the URL: \url{https://github.com/cofly2014/MDMF}.

arxiv情報

著者 Fei Guo,YiKang Wang,Han Qi,WenPing Jin,Li Zhu
発行日 2024-01-16 13:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク