Wolf: Captioning Everything with a World Summarization Framework


私たちは、正確なビデオキャプションを作成するための WOrLd 要約フレームワークである Wolf を提案します。
Wolf は、専門家混合のアプローチを採用し、視覚言語モデル (VLM) の補完的な強みを活用する自動キャプション フレームワークです。
画像モデルとビデオ モデルの両方を利用することで、私たちのフレームワークはさまざまなレベルの情報を取得し、それらを効率的に要約します。
キャプションの品質を評価するために、生成されたキャプションの類似性と品質をグラウンド トゥルース キャプションと比較して評価する LLM ベースの指標である CapScore を導入します。
さらに、包括的な比較を容易にするために、自動運転、一般シーン、ロボット工学の 3 つのドメインで人間による注釈が付けられた 4 つのデータセットを構築しました。
研究コミュニティ (VILA1.5、CogAgent) や商用ソリューション (Gemini-Pro-1.5、GPT-4V) による最先端のアプローチと比較して、Wolf が優れたキャプション パフォーマンスを達成していることを示します。
たとえば、GPT-4V と比較して、Wolf は、難易度の高い運転ビデオで、品質面で 55.6%、類似性面で 77.4% の両方で CapScore を向上させています。
最後に、ビデオの理解、キャプション、データの調整の進歩を加速することを目的として、ビデオ キャプションのベンチマークを確立し、リーダーボードを導入します。
リーダーボード: https://wolfv0.github.io/leaderboard.html


We propose Wolf, a WOrLd summarization Framework for accurate video captioning. Wolf is an automated captioning framework that adopts a mixture-of-experts approach, leveraging complementary strengths of Vision Language Models (VLMs). By utilizing both image and video models, our framework captures different levels of information and summarizes them efficiently. Our approach can be applied to enhance video understanding, auto-labeling, and captioning. To evaluate caption quality, we introduce CapScore, an LLM-based metric to assess the similarity and quality of generated captions compared to the ground truth captions. We further build four human-annotated datasets in three domains: autonomous driving, general scenes, and robotics, to facilitate comprehensive comparisons. We show that Wolf achieves superior captioning performance compared to state-of-the-art approaches from the research community (VILA1.5, CogAgent) and commercial solutions (Gemini-Pro-1.5, GPT-4V). For instance, in comparison with GPT-4V, Wolf improves CapScore both quality-wise by 55.6% and similarity-wise by 77.4% on challenging driving videos. Finally, we establish a benchmark for video captioning and introduce a leaderboard, aiming to accelerate advancements in video understanding, captioning, and data alignment. Leaderboard: https://wolfv0.github.io/leaderboard.html.


著者 Boyi Li,Ligeng Zhu,Ran Tian,Shuhan Tan,Yuxiao Chen,Yao Lu,Yin Cui,Sushant Veer,Max Ehrlich,Jonah Philion,Xinshuo Weng,Fuzhao Xue,Andrew Tao,Ming-Yu Liu,Sanja Fidler,Boris Ivanovic,Trevor Darrell,Jitendra Malik,Song Han,Marco Pavone
発行日 2024-07-26 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク