DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM

要約

視覚言語追跡 (VLT) は最先端の研究分野として浮上しており、言語データを利用してマルチモーダル入力によるアルゴリズムを強化し、従来の単一オブジェクト追跡 (SOT) の範囲をビデオ理解アプリケーションを包含するまで拡大します。
それにもかかわらず、ほとんどの VLT ベンチマークは依然として、各ビデオに対する人間による注釈付きの簡潔なテキスト説明に依存しています。
これらの説明は、ビデオ コンテンツのダイナミクスのニュアンスを捉えるには不十分であることが多く、均一な詳細レベルと固定された注釈頻度によって制約されるため、言語の文体の多様性に欠けます。
その結果、アルゴリズムはデフォルトで「答えを暗記する」戦略を採用する傾向があり、ビデオ コンテンツをより深く理解するという中心的な目的から逸脱してしまいます。
幸いなことに、ラージ言語モデル (LLM) の出現により、多様なテキストを生成できるようになりました。
この研究では、LLM を利用して、代表的な SOT ベンチマークに対して (テキストの長さと粒度に関して) さまざまなセマンティック アノテーションを生成し、それによって新しいマルチモーダル ベンチマークを確立します。
具体的には、(1) 短期追跡、長期追跡、およびグローバル インスタンス追跡の 3 つのサブタスクを含む 5 つの著名な VLT および SOT ベンチマークに基づいて、DTVLT と呼ばれる、多様なテキストを含む新しい視覚言語追跡ベンチマークを提案します。
(2) 意味情報の範囲と密度を考慮して、ベンチマークでは 4 つの粒度のテキストを提供します。
私たちは、この多粒度の生成戦略により、VLT とビデオ理解の研究に有利な環境が促進されることを期待しています。
(3) 私たちは DTVLT に関する包括的な実験分析を実施し、追跡パフォーマンスに対する多様なテキストの影響を評価し、特定された既存のアルゴリズムのパフォーマンスのボトルネックが VLT とビデオ理解のさらなる研究を支援できることを期待しています。
提案されたベンチマーク、実験結果、およびツールキットは、http://videocube.aitestunion.com/ で段階的にリリースされる予定です。

要約(オリジナル)

Visual language tracking (VLT) has emerged as a cutting-edge research area, harnessing linguistic data to enhance algorithms with multi-modal inputs and broadening the scope of traditional single object tracking (SOT) to encompass video understanding applications. Despite this, most VLT benchmarks still depend on succinct, human-annotated text descriptions for each video. These descriptions often fall short in capturing the nuances of video content dynamics and lack stylistic variety in language, constrained by their uniform level of detail and a fixed annotation frequency. As a result, algorithms tend to default to a ‘memorize the answer’ strategy, diverging from the core objective of achieving a deeper understanding of video content. Fortunately, the emergence of large language models (LLMs) has enabled the generation of diverse text. This work utilizes LLMs to generate varied semantic annotations (in terms of text lengths and granularities) for representative SOT benchmarks, thereby establishing a novel multi-modal benchmark. Specifically, we (1) propose a new visual language tracking benchmark with diverse texts, named DTVLT, based on five prominent VLT and SOT benchmarks, including three sub-tasks: short-term tracking, long-term tracking, and global instance tracking. (2) We offer four granularity texts in our benchmark, considering the extent and density of semantic information. We expect this multi-granular generation strategy to foster a favorable environment for VLT and video understanding research. (3) We conduct comprehensive experimental analyses on DTVLT, evaluating the impact of diverse text on tracking performance and hope the identified performance bottlenecks of existing algorithms can support further research in VLT and video understanding. The proposed benchmark, experimental results and toolkit will be released gradually on http://videocube.aitestunion.com/.

arxiv情報

著者 Xuchen Li,Shiyu Hu,Xiaokun Feng,Dailing Zhang,Meiqi Wu,Jing Zhang,Kaiqi Huang
発行日 2024-10-09 14:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク