要約
Timezeroを紹介します。Timezeroは、Timezeroを紹介します。これは、時間ビデオグラウンド(TVG)タスク用に設計された推論ガイド付きLVLMです。
このタスクには、特定の言語クエリに基づいて、長いビデオ内に関連するビデオセグメントを正確にローカライズする必要があります。
Timezeroは、推論プロセスを拡張することにより、この課題に取り組み、モデルが強化学習のみを通じてビデオ言語関係について推論できるようにします。
Timezeroの有効性を評価するために、TimezeroがCharades-STAで最新のパフォーマンスを達成する2つのベンチマークで実験を実施します。
コードはhttps://github.com/www-ye/timezeroで入手できます。
要約(オリジナル)
We introduce TimeZero, a reasoning-guided LVLM designed for the temporal video grounding (TVG) task. This task requires precisely localizing relevant video segments within long videos based on a given language query. TimeZero tackles this challenge by extending the inference process, enabling the model to reason about video-language relationships solely through reinforcement learning. To evaluate the effectiveness of TimeZero, we conduct experiments on two benchmarks, where TimeZero achieves state-of-the-art performance on Charades-STA. Code is available at https://github.com/www-Ye/TimeZero.
arxiv情報
著者 | Ye Wang,Boshen Xu,Zihao Yue,Zihan Xiao,Ziheng Wang,Liang Zhang,Dingyi Yang,Wenxuan Wang,Qin Jin |
発行日 | 2025-03-17 17:04:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google