Tracking with Human-Intent Reasoning

要約

知覚モデリングの進歩により、オブジェクト追跡のパフォーマンスが大幅に向上しました。
ただし、初期フレームでターゲット オブジェクトを指定する現在の方法は、1) ボックスまたはマスク テンプレートを使用するか、2) 明示的な言語記述を提供することです。
これらの方法は面倒であり、追跡者が自己推論する能力を持ちません。
したがって、この研究では、新しい追跡タスクである命令追跡を提案します。これには、トラッカーがビデオ フレーム内で自動的に追跡を実行することを要求する暗黙的な追跡命令を提供することが含まれます。
これを達成するために、物体追跡のための大規模視覚言語モデル (LVLM) からの知識と推論機能の統合を調査します。
具体的には、複雑な推論に基づいた追跡を実行できる TrackGPT と呼ばれる追跡装置を提案します。
TrackGPT は、まず LVLM を使用して追跡命令を理解し、追跡するターゲットの手がかりを参照エンベディングに凝縮します。
次に、認識コンポーネントは、埋め込みに基づいて追跡結果を生成します。
TrackGPT のパフォーマンスを評価するために、InsTrack と呼ばれる命令追跡ベンチマークを構築します。これには、命令の調整と評価のための 1,000 を超える命令とビデオのペアが含まれています。
実験の結果、TrackGPT は、Refer-DAVIS で 66.5 $\mathcal{J}\&\mathcal{F}$ という新しい最先端のパフォーマンスを獲得するなど、参照ビデオ オブジェクト セグメンテーション ベンチマークで競争力のあるパフォーマンスを達成することが示されています。
また、新しい評価プロトコルの下での命令追跡の優れたパフォーマンスも実証します。
コードとモデルは \href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT} で入手できます。

要約(オリジナル)

Advances in perception modeling have significantly improved the performance of object tracking. However, the current methods for specifying the target object in the initial frame are either by 1) using a box or mask template, or by 2) providing an explicit language description. These manners are cumbersome and do not allow the tracker to have self-reasoning ability. Therefore, this work proposes a new tracking task — Instruction Tracking, which involves providing implicit tracking instructions that require the trackers to perform tracking automatically in video frames. To achieve this, we investigate the integration of knowledge and reasoning capabilities from a Large Vision-Language Model (LVLM) for object tracking. Specifically, we propose a tracker called TrackGPT, which is capable of performing complex reasoning-based tracking. TrackGPT first uses LVLM to understand tracking instructions and condense the cues of what target to track into referring embeddings. The perception component then generates the tracking results based on the embeddings. To evaluate the performance of TrackGPT, we construct an instruction tracking benchmark called InsTrack, which contains over one thousand instruction-video pairs for instruction tuning and evaluation. Experiments show that TrackGPT achieves competitive performance on referring video object segmentation benchmarks, such as getting a new state-of the-art performance of 66.5 $\mathcal{J}\&\mathcal{F}$ on Refer-DAVIS. It also demonstrates a superior performance of instruction tracking under new evaluation protocols. The code and models are available at \href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT}.

arxiv情報

著者 Jiawen Zhu,Zhi-Qi Cheng,Jun-Yan He,Chenyang Li,Bin Luo,Huchuan Lu,Yifeng Geng,Xuansong Xie
発行日 2023-12-29 03:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク