Self-supervised Extraction of Human Motion Structures via Frame-wise Discrete Features

要約

本論文では、フレーム単位の離散特徴によって表現される人間の動きの構造を自己教師型で抽出するためのエンコーダ・デコーダモデルを提案する。
提案手法では、人間の知識を介さずに特徴を動きコードブックのコードとして抽出し、コード間の関係をグラフ上で可視化することができます。
コードはキャプチャされたフレーム レートに比べて時間的にまばらであることが予想され、複数のシーケンスで共有できるため、提案されたネットワーク モデルはトレーニング制約の必要性にも対処します。
具体的には、モデルはセルフ アテンション レイヤーとベクトル クラスタリング ブロックで構成されます。
アテンション レイヤーは、まばらなキーフレームと離散的な特徴をモーション コードとして見つけるのに役立ち、これらはベクトル クラスタリングによって抽出されます。
制約はトレーニング損失として実現され、同じモーション コードが可能な限り連続し、複数のシーケンスで共有できるようになります。
さらに、多数のフレームからなる長いシーケンスに対する注意を計算する方法として、因果的自己注意の使用を提案します。
私たちの実験では、モーション コードのスパース構造を使用して、コード間の関係とシーケンス間の違いの視覚化を容易にするグラフを作成しました。
次に、抽出したモーション コードを複数の認識タスクに適用してその有効性を評価し、線形プローブによってタスク最適化手法と同等のパフォーマンス レベルを達成できることがわかりました。

要約(オリジナル)

The present paper proposes an encoder-decoder model for extracting the structures of human motions represented by frame-wise discrete features in a self-supervised manner. In the proposed method, features are extracted as codes in a motion codebook without the use of human knowledge, and the relationship between these codes can be visualized on a graph. Since the codes are expected to be temporally sparse compared to the captured frame rate and can be shared by multiple sequences, the proposed network model also addresses the need for training constraints. Specifically, the model consists of self-attention layers and a vector clustering block. The attention layers contribute to finding sparse keyframes and discrete features as motion codes, which are then extracted by vector clustering. The constraints are realized as training losses so that the same motion codes can be as contiguous as possible and can be shared by multiple sequences. In addition, we propose the use of causal self-attention as a method by which to calculate attention for long sequences consisting of numerous frames. In our experiments, the sparse structures of motion codes were used to compile a graph that facilitates visualization of the relationship between the codes and the differences between sequences. We then evaluated the effectiveness of the extracted motion codes by applying them to multiple recognition tasks and found that performance levels comparable to task-optimized methods could be achieved by linear probing.

arxiv情報

著者 Tetsuya Abe,Ryusuke Sagawa,Ko Ayusawa,Wataru Takano
発行日 2023-09-12 05:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク