Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation

要約

変圧器ベースの3Dヒトポーズ推定方法は、シーケンス長に関する二次複雑さのために高い計算コストに悩まされています。
さらに、ポーズシーケンスには、多くの場合、フレーム間に大きな冗長性が含まれます。
ただし、最近の方法は通常、モデル容量を改善することができず、シーケンスの冗長性を効果的に排除します。
この作業では、スペクトル圧縮トランス(SCT)を導入して、シーケンスの長さを減らし、計算を加速します。
SCTエンコーダーは、ブロック間の隠された特徴を時間的特徴信号(TFS)として扱い、フーリエ変換ベースの技術である離散コサイン変換を適用して、保持するスペクトル成分を決定します。
特定の高周波ノイズ成分を除外することにより、SCTはシーケンス長を圧縮し、冗長性を減らします。
以前の構造情報で入力シーケンスをさらに豊かにするために、線グラフ理論に基づいて、ラインポーズグラフ(LPG)を提案します。
LPGは、入力2Dジョイント位置を補完する骨格位置情報を生成し、それによりモデルのパフォーマンスが向上します。
最後に、デュアルストリームネットワークアーキテクチャを設計して、ポーズシーケンス内の空間的な関節関係と圧縮運動軌道を効果的にモデル化します。
2つのベンチマークデータセット(つまり、Human3.6MおよびMPI-INF-3DHP)での広範な実験は、私たちのモデルが計算効率が向上して最先端のパフォーマンスを達成することを示しています。
たとえば、Human3.6mデータセットでは、計算コストが低い間、MPJPEが37.7mmのMPJPEを達成します。
さらに、各モジュールでアブレーション研究を実行して、その有効性を評価します。
コードとモデルがリリースされます。

要約(オリジナル)

Transformer-based 3D human pose estimation methods suffer from high computational costs due to the quadratic complexity of self-attention with respect to sequence length. Additionally, pose sequences often contain significant redundancy between frames. However, recent methods typically fail to improve model capacity while effectively eliminating sequence redundancy. In this work, we introduce the Spectral Compression Transformer (SCT) to reduce sequence length and accelerate computation. The SCT encoder treats hidden features between blocks as Temporal Feature Signals (TFS) and applies the Discrete Cosine Transform, a Fourier transform-based technique, to determine the spectral components to be retained. By filtering out certain high-frequency noise components, SCT compresses the sequence length and reduces redundancy. To further enrich the input sequence with prior structural information, we propose the Line Pose Graph (LPG) based on line graph theory. The LPG generates skeletal position information that complements the input 2D joint positions, thereby improving the model’s performance. Finally, we design a dual-stream network architecture to effectively model spatial joint relationships and the compressed motion trajectory within the pose sequence. Extensive experiments on two benchmark datasets (i.e., Human3.6M and MPI-INF-3DHP) demonstrate that our model achieves state-of-the-art performance with improved computational efficiency. For example, on the Human3.6M dataset, our method achieves an MPJPE of 37.7mm while maintaining a low computational cost. Furthermore, we perform ablation studies on each module to assess its effectiveness. The code and models will be released.

arxiv情報

著者 Zenghao Zheng,Lianping Yang,Hegui Zhu,Mingrui Ye
発行日 2025-05-27 15:08:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク