Weakly-supervised Representation Learning for Video Alignment and Analysis

要約

ビデオ解析・理解における多くのタスクは、フレームベースの特徴量学習の必要性に帰着する。これは、関連する視覚的コンテンツをカプセル化し、その後の処理をより単純かつ容易にすることを目的とする。この学習タスクのための教師あり戦略は想定されるが、ラベル付きデータの取得が困難なため、自己または弱教師ありの代替案が好まれる。本論文では、LRPropという新しい弱教師付き表現学習手法を、同じ行動カテゴリのビデオのペア間の時間的アライメントの適用に重点を置いて紹介する。提案手法は、フレームレベルの特徴を抽出するためにトランスフォーマーエンコーダを用い、ビデオペア間のアライメントパスを特定するために、学習反復の中でDTWアルゴリズムを採用する。ペアワイズポジションプロパゲーションと呼ばれる処理により、位置ごとの対応関係の確率分布は、KL-ダイバージェンス最小化によりフレームレベルの特徴の類似性と一致させられる。また、提案アルゴリズムでは、学習した特徴をより良く調整するために、正則化したSoftDTW損失を用いている。我々の新しい表現学習パラダイムは、時間的アライメントタスクにおいて常に最先端技術を凌駕し、いくつかの下流映像解析アプリケーションに対して新しいパフォーマンスバーを確立している。

要約(オリジナル)

Many tasks in video analysis and understanding boil down to the need for frame-based feature learning, aiming to encapsulate the relevant visual content so as to enable simpler and easier subsequent processing. While supervised strategies for this learning task can be envisioned, self and weakly-supervised alternatives are preferred due to the difficulties in getting labeled data. This paper introduces LRProp — a novel weakly-supervised representation learning approach, with an emphasis on the application of temporal alignment between pairs of videos of the same action category. The proposed approach uses a transformer encoder for extracting frame-level features, and employs the DTW algorithm within the training iterations in order to identify the alignment path between video pairs. Through a process referred to as “pair-wise position propagation”, the probability distributions of these correspondences per location are matched with the similarity of the frame-level features via KL-divergence minimization. The proposed algorithm uses also a regularized SoftDTW loss for better tuning the learned features. Our novel representation learning paradigm consistently outperforms the state of the art on temporal alignment tasks, establishing a new performance bar over several downstream video analysis applications.

arxiv情報

著者 Guy Bar-Shalom,George Leifman,Michael Elad,Ehud Rivlin
発行日 2023-02-08 14:01:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク