Robust Visual Tracking by Segmentation

要約

ターゲット範囲を推定することは、視覚オブジェクトの追跡において基本的な課題をもたらします。
通常、トラッカーはボックス中心であり、シーン内のターゲットを定義するためにバウンディングボックスに完全に依存しています。
実際には、オブジェクトは複雑な形状をしていることが多く、画像の軸と整列していません。
このような場合、バウンディングボックスはターゲットの正確な説明を提供せず、多くの場合、背景ピクセルの大部分が含まれます。
高精度のセグメンテーションマスクを生成するだけでなく、バ​​ウンディングボックスの代わりにセグメンテーションマスクを内部的に使用するセグメンテーション中心の追跡パイプラインを提案します。
したがって、トラッカーは、シーン内のターゲットを背景コンテンツから明確に区別するターゲット表現をより適切に学習できます。
困難な追跡シナリオに必要な堅牢性を実現するために、出力マスクを生成するときにセグメンテーションデコーダーを調整するために使用される別のインスタンスローカリゼーションコンポーネントを提案します。
セグメンテーションマスクからバウンディングボックスを推測し、挑戦的な追跡データセットでトラッカーを検証し、69.7%の成功AUCスコアでLaSOTの新しい最先端を達成します。
ほとんどの追跡データセットにはマスク注釈が含まれていないため、予測されたセグメンテーションマスクを評価するためにそれらを使用することはできません。
代わりに、2つの人気のあるビデオオブジェクトセグメンテーションデータセットでセグメンテーション品質を検証します。

要約(オリジナル)

Estimating the target extent poses a fundamental challenge in visual object tracking. Typically, trackers are box-centric and fully rely on a bounding box to define the target in the scene. In practice, objects often have complex shapes and are not aligned with the image axis. In these cases, bounding boxes do not provide an accurate description of the target and often contain a majority of background pixels. We propose a segmentation-centric tracking pipeline that not only produces a highly accurate segmentation mask, but also internally works with segmentation masks instead of bounding boxes. Thus, our tracker is able to better learn a target representation that clearly differentiates the target in the scene from background content. In order to achieve the necessary robustness for the challenging tracking scenario, we propose a separate instance localization component that is used to condition the segmentation decoder when producing the output mask. We infer a bounding box from the segmentation mask, validate our tracker on challenging tracking datasets and achieve the new state of the art on LaSOT with a success AUC score of 69.7%. Since most tracking datasets do not contain mask annotations, we cannot use them to evaluate predicted segmentation masks. Instead, we validate our segmentation quality on two popular video object segmentation datasets.

arxiv情報

著者 Matthieu Paul,Martin Danelljan,Christoph Mayer,Luc Van Gool
発行日 2022-07-20 15:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク