Meet JEANIE: a Similarity Measure for 3D Skeleton Sequences via Temporal-Viewpoint Alignment


ビデオ シーケンスは、アクションの速度、時間的位置、および被験者のポーズに重大な迷惑な変動 (望ましくない効果) を示し、2 セットのフレームを比較するとき、または 2 つのシーケンスの類似性を評価するときに、時間的視点のずれを引き起こします。
特に、カメラや被写体のポーズを 3D で簡単に操作できる 3D スケルトン シーケンスに焦点を当てています。
骨格的な少数ショット アクション認識 (FSAR) に基づいて JEANIE を評価します。FSAR では、新しいクラスのサンプルが限られているため、サポート クエリ シーケンス ペアの適切な時間ブロック (シーケンスを構成する時間チャンク) を (迷惑な変動を除外することにより) 一致させることが不可欠です。

クエリ シーケンスが与えられると、いくつかのカメラの位置をシミュレートすることによって、いくつかのビューを作成します。
サポート シーケンスの場合、一般的なダイナミック タイム ワーピング (DTW) と同様に、ビューでシミュレートされたクエリ シーケンスと照合します。
JEANIE は、異なる時間視点のワーピング パターンを持つ一致するパスの中から最小の距離を選択します。これは、時間的な位置合わせのみを実行する DTW よりも優れています。
また、距離の尺度として JEANIE を使用したシーケンスのクラスタリングに似た教師なし FSAR も提案します。
JEANIE は、教師ありおよび教師なし FSAR に関する NTU-60、NTU-120、Kinetics-skeleton、および UWA3D マルチビュー アクティビティ II、およびそれらのメタ学習に触発された融合で最先端の結果を達成します。


Video sequences exhibit significant nuisance variations (undesired effects) of speed of actions, temporal locations, and subjects’ poses, leading to temporal-viewpoint misalignment when comparing two sets of frames or evaluating the similarity of two sequences. Thus, we propose Joint tEmporal and cAmera viewpoiNt alIgnmEnt (JEANIE) for sequence pairs. In particular, we focus on 3D skeleton sequences whose camera and subjects’ poses can be easily manipulated in 3D. We evaluate JEANIE on skeletal Few-shot Action Recognition (FSAR), where matching well temporal blocks (temporal chunks that make up a sequence) of support-query sequence pairs (by factoring out nuisance variations) is essential due to limited samples of novel classes. Given a query sequence, we create its several views by simulating several camera locations. For a support sequence, we match it with view-simulated query sequences, as in the popular Dynamic Time Warping (DTW). Specifically, each support temporal block can be matched to the query temporal block with the same or adjacent (next) temporal index, and adjacent camera views to achieve joint local temporal-viewpoint warping. JEANIE selects the smallest distance among matching paths with different temporal-viewpoint warping patterns, an advantage over DTW which only performs temporal alignment. We also propose an unsupervised FSAR akin to clustering of sequences with JEANIE as a distance measure. JEANIE achieves state-of-the-art results on NTU-60, NTU-120, Kinetics-skeleton and UWA3D Multiview Activity II on supervised and unsupervised FSAR, and their meta-learning inspired fusion.


著者 Lei Wang,Jun Liu,Liang Zheng,Tom Gedeon,Piotr Koniusz
発行日 2024-03-25 13:30:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク