Video based Object 6D Pose Estimation using Transformers

要約

我々は、ビデオ内の正確な6次元オブジェクトの姿勢を推定するために、前のフレームに注目するエンドツーエンドの注目ベースのモデリングアーキテクチャからなる、トランスフォーマーに基づく6次元オブジェクト姿勢推定フレームワークVideoPoseを紹介します。我々のアプローチは、ビデオシーケンスからの時間情報を利用して、ポーズを洗練させ、計算効率とロバスト性に優れています。既存の手法と比較して、本アプローチは長距離依存関係を効率的に捉え、推論することができるため、動画像シーケンス上で反復的に洗練させることができます。YCB-Videoデータセットでの実験評価では、我々のアプローチは最先端のTransformer手法と同等であり、CNNベースのアプローチと比較して大幅に性能が向上することが示された。さらに、33fpsの速度で、より効率的であるため、リアルタイムのオブジェクトポーズ推定を必要とする様々なアプリケーションに適用可能であることがわかります。学習コードと事前学習済みモデルは、https://github.com/ApoorvaBeedu/VideoPose で入手できます。

要約(オリジナル)

We introduce a Transformer based 6D Object Pose Estimation framework VideoPose, comprising an end-to-end attention based modelling architecture, that attends to previous frames in order to estimate accurate 6D Object Poses in videos. Our approach leverages the temporal information from a video sequence for pose refinement, along with being computationally efficient and robust. Compared to existing methods, our architecture is able to capture and reason from long-range dependencies efficiently, thus iteratively refining over video sequences. Experimental evaluation on the YCB-Video dataset shows that our approach is on par with the state-of-the-art Transformer methods, and performs significantly better relative to CNN based approaches. Further, with a speed of 33 fps, it is also more efficient and therefore applicable to a variety of applications that require real-time object pose estimation. Training code and pretrained models are available at https://github.com/ApoorvaBeedu/VideoPose

arxiv情報

著者 Apoorva Beedu,Huda Alamri,Irfan Essa
発行日 2022-11-07 18:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク