Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark

要約

Visual Language Tracking (VLT) は、言語を介した高レベルの意味情報を利用して、視覚モダリティのみに依存する制限を軽減することで追跡を強化します。
この言語の統合により、より高度な人間と機械の対話が可能になります。
インタラクションの本質は認知的調整であり、これには通常、特に VLT の連続的な意思決定プロセスにおいて、複数の情報交換が必要です。
ただし、現在の VLT ベンチマークは、追跡中の複数ラウンドのインタラクションを考慮していません。
最初のフレームには最初のテキストとバウンディング ボックス (bbox) のみが提供され、追跡が進行するにつれてそれ以上の対話は行われず、VLT タスクの本来の動機から逸脱します。
これらの制限に対処するために、VLT タスクに初めてマルチラウンド インタラクションを導入する、新しく堅牢なベンチマーク VLT-MI (Visual Language Tracking with Multi-modal Interaction) を提案します。
(1) LLM の世界的な知識を活用して、DTLLM-VLT を使用する既存の主流 VLT ベンチマークに基づいて、マルチラウンド、マルチモーダル インタラクションのための多様なマルチ粒度のテキストを生成します。
(2) 我々は、テキスト更新とオブジェクト回復を通じてマルチラウンドインタラクションを実現する新しい VLT インタラクションパラダイムを提案します。
複数の追跡エラーが発生した場合、インタラクションを通じてより整列されたテキストと修正された bbox をトラッカーに提供することで、VLT ダウンストリーム タスクの範囲を拡大します。
(3) 従来の VLT ベンチマークと VLT-MI の両方で比較実験を行い、対話型パラダイムの下でトラッカーの精度と堅牢性を評価および分析します。
この研究は、VLT タスクに新しい洞察とパラダイムを提供し、マルチモーダル トラッカーのきめ細かい評価を可能にします。
私たちは、このアプローチを将来的に追加のデータセットに拡張し、ビデオ言語モデルの機能のより広範な評価と比較をサポートできると考えています。

要約(オリジナル)

Visual Language Tracking (VLT) enhances tracking by mitigating the limitations of relying solely on the visual modality, utilizing high-level semantic information through language. This integration of the language enables more advanced human-machine interaction. The essence of interaction is cognitive alignment, which typically requires multiple information exchanges, especially in the sequential decision-making process of VLT. However, current VLT benchmarks do not account for multi-round interactions during tracking. They provide only an initial text and bounding box (bbox) in the first frame, with no further interaction as tracking progresses, deviating from the original motivation of the VLT task. To address these limitations, we propose a novel and robust benchmark, VLT-MI (Visual Language Tracking with Multi-modal Interaction), which introduces multi-round interaction into the VLT task for the first time. (1) We generate diverse, multi-granularity texts for multi-round, multi-modal interaction based on existing mainstream VLT benchmarks using DTLLM-VLT, leveraging the world knowledge of LLMs. (2) We propose a new VLT interaction paradigm that achieves multi-round interaction through text updates and object recovery. When multiple tracking failures occur, we provide the tracker with more aligned texts and corrected bboxes through interaction, thereby expanding the scope of VLT downstream tasks. (3) We conduct comparative experiments on both traditional VLT benchmarks and VLT-MI, evaluating and analyzing the accuracy and robustness of trackers under the interactive paradigm. This work offers new insights and paradigms for the VLT task, enabling a fine-grained evaluation of multi-modal trackers. We believe this approach can be extended to additional datasets in the future, supporting broader evaluations and comparisons of video-language model capabilities.

arxiv情報

著者 Xuchen Li,Shiyu Hu,Xiaokun Feng,Dailing Zhang,Meiqi Wu,Jing Zhang,Kaiqi Huang
発行日 2024-09-13 14:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク