Overlooked Poses Actually Make Sense: Distilling Privileged Knowledge for Human Motion Prediction

要約

人間の動きの予測に関するこれまでの研究は、観測されたシーケンスと予測されるシーケンスとの間のマッピング関係を構築するパターンに従っています。
ただし、多変量時系列データは固有に複雑であるため、モーション シーケンス間の外挿関係を見つけることは依然として課題です。
この論文では、補間の観点から予測タスクを実装するために、以前は見過ごされていた人間のポーズを導入する新しい予測パターンを提示します。
これらのポーズは、予測されたシーケンスの後に存在し、特権シーケンスを形成します。
具体的には、観測されたシーケンスと特権シーケンスの両方をエンコードして中間予測シーケンスを補間する InTerPolation 学習ネットワーク (ITP-Network) を最初に提案します。
特権知識 (PK) を同時に。
次に、特権シーケンスが観測できない最終予測ネットワーク (FP-Network) を提案しますが、以前のネットワークから学習した PK を抽出する新しい PK-Simulator を備えています。
このシミュレーターは観測されたシーケンスを入力として受け取りますが、Priv-Encoder の動作を近似し、FP-Network が補間プロセスを模倣できるようにします。
広範な実験結果は、短期予測と長期予測の両方で、ベンチマークされた H3.6M、CMU-Mocap、および 3DPW データセットで予測パターンが最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Previous works on human motion prediction follow the pattern of building a mapping relation between the sequence observed and the one to be predicted. However, due to the inherent complexity of multivariate time series data, it still remains a challenge to find the extrapolation relation between motion sequences. In this paper, we present a new prediction pattern, which introduces previously overlooked human poses, to implement the prediction task from the view of interpolation. These poses exist after the predicted sequence, and form the privileged sequence. To be specific, we first propose an InTerPolation learning Network (ITP-Network) that encodes both the observed sequence and the privileged sequence to interpolate the in-between predicted sequence, wherein the embedded Privileged-sequence-Encoder (Priv-Encoder) learns the privileged knowledge (PK) simultaneously. Then, we propose a Final Prediction Network (FP-Network) for which the privileged sequence is not observable, but is equipped with a novel PK-Simulator that distills PK learned from the previous network. This simulator takes as input the observed sequence, but approximates the behavior of Priv-Encoder, enabling FP-Network to imitate the interpolation process. Extensive experimental results demonstrate that our prediction pattern achieves state-of-the-art performance on benchmarked H3.6M, CMU-Mocap and 3DPW datasets in both short-term and long-term predictions.

arxiv情報

著者 Xiaoning Sun,Qiongjie Cui,Huaijiang Sun,Bin Li,Weiqing Li,Jianfeng Lu
発行日 2022-08-02 08:13:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク