要約
本論文では、視覚的物体追跡とビデオ物体分割の両方を、同じシンプルな手法でリアルタイムに実行するフレームワークであるSiamMaskを紹介する。我々は、一般的な完全畳み込みシャムアプローチのオフライン学習手順を、バイナリセグメンテーションタスクで損失を補強することで改善する。オフラインでの学習が完了すると、SiamMaskは初期化のために1つのバウンディングボックスを必要とするだけで、高いフレームレートで視覚的オブジェクトの追跡とセグメンテーションを同時に実行することができる。さらに、マルチタスクモデルをカスケード方式で再利用するだけで、複数のオブジェクトのトラッキングとセグメンテーションを扱うようにフレームワークを拡張できることも示している。実験の結果、我々のアプローチは約55フレーム/秒の高い処理効率を持つことがわかった。また、ビジュアルオブジェクトトラッキングベンチマークにおいてリアルタイムで最先端の結果を得ると同時に、ビデオオブジェクトセグメンテーションベンチマークにおいても高速で競争力のある性能を示すことができた。
要約(オリジナル)
In this paper we introduce SiamMask, a framework to perform both visual object tracking and video object segmentation, in real-time, with the same simple method. We improve the offline training procedure of popular fully-convolutional Siamese approaches by augmenting their losses with a binary segmentation task. Once the offline training is completed, SiamMask only requires a single bounding box for initialization and can simultaneously carry out visual object tracking and segmentation at high frame-rates. Moreover, we show that it is possible to extend the framework to handle multiple object tracking and segmentation by simply re-using the multi-task model in a cascaded fashion. Experimental results show that our approach has high processing efficiency, at around 55 frames per second. It yields real-time state-of-the-art results on visual-object tracking benchmarks, while at the same time demonstrating competitive performance at a high speed for video object segmentation benchmarks.
arxiv情報
著者 | Weiming Hu,Qiang Wang,Li Zhang,Luca Bertinetto,Philip H. S. Torr |
発行日 | 2022-07-05 14:47:17+00:00 |
arxivサイト | arxiv_id(pdf) |