Tracking by 3D Model Estimation of Unknown Objects in Videos

要約

タイトル:ビデオ内の未知のオブジェクトの3Dモデル推定によるトラッキング

要約:

・モデルフリーのビジュアルオブジェクトトラッキング方法では、各ビデオフレーム内の2Dセグメンテーションやバウンディングボックスによって与えられたオブジェクトの位置推定を定式化することが一般的である。

・しかし、この表現は制限されており、代わりにテクスチャ付きの3D形状と6DoFポーズという明示的なオブジェクト表現を使用して2Dトラッキングを導き、改善することを提案している。

・この表現は、すべてのビデオフレーム上のすべての3D点間での複雑な長期的な密度対応の問題に対処し、一部の点が見えないフレームも含まれます。

・この推定には、トラッキングに使用されることがなかった差分レンダリングを介して、入力ビデオフレームを可能な限り再レンダリングすることによって推進されます。

・提案された最適化は、ベストな3D形状、テクスチャ、および6DoFポーズを推定するための新しい損失関数を最小化します。

・提案手法は、主に剛体オブジェクトを対象とした3つの異なるデータセットにおいて、2Dセグメンテーショントラッキングの最新技術を改善しました。

要約(オリジナル)

Most model-free visual object tracking methods formulate the tracking task as object location estimation given by a 2D segmentation or a bounding box in each video frame. We argue that this representation is limited and instead propose to guide and improve 2D tracking with an explicit object representation, namely the textured 3D shape and 6DoF pose in each video frame. Our representation tackles a complex long-term dense correspondence problem between all 3D points on the object for all video frames, including frames where some points are invisible. To achieve that, the estimation is driven by re-rendering the input video frames as well as possible through differentiable rendering, which has not been used for tracking before. The proposed optimization minimizes a novel loss function to estimate the best 3D shape, texture, and 6DoF pose. We improve the state-of-the-art in 2D segmentation tracking on three different datasets with mostly rigid objects.

arxiv情報

著者 Denys Rozumnyi,Jiri Matas,Marc Pollefeys,Vittorio Ferrari,Martin R. Oswald
発行日 2023-04-13 11:32:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.GR パーマリンク