要約
数ショットの行動認識は、少数のラベル付きトレーニングサンプルのみを使用して新しい行動クラスを認識することを目的としています。
この作業では、最初に各ビデオをグローバルプロトタイプのグループとフォーカスされたプロトタイプのグループで構成される複合プロトタイプに要約し、次にプロトタイプに基づいてビデオの類似性を比較する新しいアプローチを提案します。
各グローバルプロトタイプは、アクションの開始/進化など、ビデオ全体の特定の側面を要約することをお勧めします。
グローバルプロトタイプには明確なアノテーションが提供されていないため、フォーカスされたプロトタイプのグループを使用して、ビデオ内の特定のタイムスタンプにフォーカスします。
サポートビデオとクエリビデオの間で複合プロトタイプを照合することにより、ビデオの類似性を比較します。
グローバルプロトタイプを直接照合して、同じ視点からビデオを比較します。たとえば、2つのアクションが同じように開始するかどうかを比較します。
焦点を絞ったプロトタイプの場合、アクションにはビデオ内のさまざまな時間的変動があるため、2部マッチングを適用して、異なる時間的位置とシフトを持つアクションを比較できるようにします。
実験は、提案された方法が複数のベンチマークで最先端の結果を達成することを示しています。
要約(オリジナル)
Few-shot action recognition aims to recognize novel action classes using only a small number of labeled training samples. In this work, we propose a novel approach that first summarizes each video into compound prototypes consisting of a group of global prototypes and a group of focused prototypes, and then compares video similarity based on the prototypes. Each global prototype is encouraged to summarize a specific aspect from the entire video, for example, the start/evolution of the action. Since no clear annotation is provided for the global prototypes, we use a group of focused prototypes to focus on certain timestamps in the video. We compare video similarity by matching the compound prototypes between the support and query videos. The global prototypes are directly matched to compare videos from the same perspective, for example, to compare whether two actions start similarly. For the focused prototypes, since actions have various temporal variations in the videos, we apply bipartite matching to allow the comparison of actions with different temporal positions and shifts. Experiments demonstrate that our proposed method achieves state-of-the-art results on multiple benchmarks.
arxiv情報
著者 | Lijin Yang,Yifei Huang,Yoichi Sato |
発行日 | 2022-07-19 08:20:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google