TimeZero: Temporal Video Grounding with Reasoning-Guided LVLM

要約

Timezeroを紹介します。Timezeroは、Timezeroを紹介します。これは、時間ビデオグラウンド(TVG)タスク用に設計された推論ガイド付きLVLMです。
このタスクには、特定の言語クエリに基づいて、長いビデオ内に関連するビデオセグメントを正確にローカライズする必要があります。
Timezeroは、推論プロセスを拡張することにより、この課題に取り組み、モデルが強化学習のみを通じてビデオ言語関係について推論できるようにします。
Timezeroの有効性を評価するために、TimezeroがCharades-STAで最新のパフォーマンスを達成する2つのベンチマークで実験を実施します。
コードはhttps://github.com/www-ye/timezeroで入手できます。

要約(オリジナル)

We introduce TimeZero, a reasoning-guided LVLM designed for the temporal video grounding (TVG) task. This task requires precisely localizing relevant video segments within long videos based on a given language query. TimeZero tackles this challenge by extending the inference process, enabling the model to reason about video-language relationships solely through reinforcement learning. To evaluate the effectiveness of TimeZero, we conduct experiments on two benchmarks, where TimeZero achieves state-of-the-art performance on Charades-STA. Code is available at https://github.com/www-Ye/TimeZero.

arxiv情報

著者 Ye Wang,Boshen Xu,Zihao Yue,Zihan Xiao,Ziheng Wang,Liang Zhang,Dingyi Yang,Wenxuan Wang,Qin Jin
発行日 2025-03-17 17:04:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク