要約
Visual Language Tracking (VLT) は、ビデオからの自然言語記述を統合することにより、単一オブジェクト トラッキング (SOT) を強化し、指定されたオブジェクトを正確に追跡します。
VLT は、高レベルのセマンティック情報を活用することでオブジェクト追跡をガイドし、視覚的なモダリティへの依存に伴う制約を軽減します。
それにもかかわらず、ほとんどの VLT ベンチマークには単一の粒度で注釈が付けられており、科学的なガイダンスを提供する一貫したセマンティック フレームワークが欠けています。
さらに、高品質のアノテーションを実現するために人間のアノテーターを調整するのは、手間と時間がかかります。
これらの課題に対処するために、環境の多様性を高めるために広範かつ多粒度のテキストを自動的に生成する DTLLM-VLT を導入します。
(1) DTLLM-VLT は、一貫性のあるプロンプト フレームワークを使用して、科学的で多粒度のテキスト記述を生成します。
簡潔で適応性の高い設計により、さまざまな視覚追跡ベンチマークへのシームレスな統合が可能になります。
(2) アプローチを展開するために、短期追跡、長期追跡、およびグローバル インスタンス追跡の 3 つの著名なベンチマークを選択します。
セマンティック情報の範囲と密度を考慮して、これらのベンチマークに対して 4 つの粒度の組み合わせを提供し、DTLLM-VLT の実用性と多用途性を示しています。
(3) 異なるテキスト粒度の VLT ベンチマークで比較実験を行い、多様なテキストが追跡パフォーマンスに与える影響を評価および分析します。
結論として、この研究では LLM を活用して、効率的かつ多様な観点から VLT タスクに多粒度のセマンティック情報を提供し、マルチモーダル トラッカーのきめ細かい評価を可能にします。
将来的には、この作業をより多くのデータセットに拡張して、視覚データセットの理解をサポートできると考えています。
要約(オリジナル)
Visual Language Tracking (VLT) enhances single object tracking (SOT) by integrating natural language descriptions from a video, for the precise tracking of a specified object. By leveraging high-level semantic information, VLT guides object tracking, alleviating the constraints associated with relying on a visual modality. Nevertheless, most VLT benchmarks are annotated in a single granularity and lack a coherent semantic framework to provide scientific guidance. Moreover, coordinating human annotators for high-quality annotations is laborious and time-consuming. To address these challenges, we introduce DTLLM-VLT, which automatically generates extensive and multi-granularity text to enhance environmental diversity. (1) DTLLM-VLT generates scientific and multi-granularity text descriptions using a cohesive prompt framework. Its succinct and highly adaptable design allows seamless integration into various visual tracking benchmarks. (2) We select three prominent benchmarks to deploy our approach: short-term tracking, long-term tracking, and global instance tracking. We offer four granularity combinations for these benchmarks, considering the extent and density of semantic information, thereby showcasing the practicality and versatility of DTLLM-VLT. (3) We conduct comparative experiments on VLT benchmarks with different text granularities, evaluating and analyzing the impact of diverse text on tracking performance. Conclusionally, this work leverages LLM to provide multi-granularity semantic information for VLT task from efficient and diverse perspectives, enabling fine-grained evaluation of multi-modal trackers. In the future, we believe this work can be extended to more datasets to support vision datasets understanding.
arxiv情報
著者 | Xuchen Li,Xiaokun Feng,Shiyu Hu,Meiqi Wu,Dailing Zhang,Jing Zhang,Kaiqi Huang |
発行日 | 2024-05-20 16:01:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google