LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale

要約

最近のビデオ大規模な言語モデル(ビデオLLM)は、多くの場合、高価な人間の注釈または独自のモデルAPI(GPT-4Oなど)に依存して、トレーニングデータを制限するトレーニングデータを作成します。
このホワイトペーパーでは、安価な自動音声認識(ASR)転写産物を使用して、ビデオLLMの大規模なトレーニングを検討します。
具体的には、タイムスタンプに応じてASRの単語とビデオフレームを密に補強する新しいストリーミングトレーニングアプローチを提案します。
ASRを使用した視覚言語表現の以前の研究と比較して、我々の方法はASRのストリーミング特性に自然に適合するため、モデルが一時的に整列した細かい視覚言語モデリングを学習できるようになります。
トレーニングアルゴリズムをサポートするために、YouTubeビデオとその閉じたキャプション(CC、​​ASRと同じ)を処理するためのデータ生産パイプラインを導入し、事前トレーニングおよびLive-WhisPerx-526KデータセットのライブCC-5Mデータセットを導入します。
驚くべきことに、SFTがなくても、ASRのみの訓練を受けたLiveCC-7Bベースモデルは、競争力のある一般的なビデオQAパフォーマンスを実証し、リアルタイムビデオ解説の新しい機能を示します。
これを評価するために、LLM-as-a-judgeを使用してフリーフォームの解説を測定するために、新しいLiveSports-3Kベンチマークを慎重に設計します。
実験では、最終的なLIVECC-7B-Instructモデルが高度な72Bモデル(QWEN2.5-VL-72B-Instruct、Llava-Video-72b)を上回ることができることが示されています。
一方、VideMommeやOvobenchなどの人気のあるビデオQAベンチマークで7B/8Bスケールで最新の結果を達成し、アプローチの広範な一般化可能性を示しています。
このペーパーのすべてのリソースは、https://showlab.github.io/liveccでリリースされています。

要約(オリジナル)

Recent video large language models (Video LLMs) often depend on costly human annotations or proprietary model APIs (e.g., GPT-4o) to produce training data, which limits their training at scale. In this paper, we explore large-scale training for Video LLM with cheap automatic speech recognition (ASR) transcripts. Specifically, we propose a novel streaming training approach that densely interleaves the ASR words and video frames according to their timestamps. Compared to previous studies in vision-language representation with ASR, our method naturally fits the streaming characteristics of ASR, thus enabling the model to learn temporally-aligned, fine-grained vision-language modeling. To support the training algorithm, we introduce a data production pipeline to process YouTube videos and their closed captions (CC, same as ASR), resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT, the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general video QA performance and exhibits a new capability in real-time video commentary. To evaluate this, we carefully design a new LiveSports-3K benchmark, using LLM-as-a-judge to measure the free-form commentary. Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even working in a real-time mode. Meanwhile, it achieves state-of-the-art results at the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench, demonstrating the broad generalizability of our approach. All resources of this paper have been released at https://showlab.github.io/livecc.

arxiv情報

著者 Joya Chen,Ziyun Zeng,Yiqi Lin,Wei Li,Zejun Ma,Mike Zheng Shou
発行日 2025-04-22 16:52:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク