ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

要約

ShareGPT4Video シリーズを紹介します。これは、高密度で正確なキャプションを介して、大規模ビデオ言語モデル (LVLM) のビデオ理解とテキストからビデオへのモデル (T2VM) のビデオ生成を容易にすることを目的としています。
このシリーズは以下で構成されます: 1) ShareGPT4Video、慎重に設計されたデータ フィルタリングと注釈戦略を通じて開発された、さまざまな長さとソースのビデオの 40K GPT4V 注釈付き高密度キャプション。
2) ShareCaptioner-Video は、任意のビデオに対する効率的かつ有能なキャプション モデルであり、480 万の高品質で美しいビデオに注釈が付けられています。
3) ShareGPT4Video-8B、シンプルでありながら優れた LVLM で、3 つの先進的なビデオ ベンチマークで SOTA パフォーマンスに達しました。
これを達成するには、スケーラブルではなくコストのかかるヒューマン アノテーターを除けば、GPT4V を使用して単純なマルチフレームまたはフレーム連結入力戦略でビデオにキャプションを付けると、詳細が少なく、場合によっては時間的に混乱した結果が得られることがわかりました。
私たちは、高品質のビデオキャプション戦略を設計する際の課題は次の 3 つの側面にあると主張します。 1) フレーム間の正確な時間的変化の理解。
2) フレーム内の詳細なコンテンツの説明。
3) 任意の長さのビデオに対するフレーム番号のスケーラビリティ。
この目的を達成するために、私たちは、任意の解像度、アスペクト比、長さのビデオのキャプションを生成するための安定性、スケーラブル、効率的な差分ビデオ キャプション戦略を細心の注意を払って設計しました。
これに基づいて、幅広いカテゴリにまたがる 40K の高品質ビデオを含む ShareGPT4Video を構築します。その結果得られるキャプションには、豊富な世界知識、オブジェクトの属性、カメラの動き、そして重要なことに、イベントの詳細かつ正確な時間的記述が含まれます。
ShareGPT4Video に基づいて、任意のビデオに対して高品質のキャプションを効率的に生成できる優れたキャプショナである ShareCaptioner-Video をさらに開発します…

要約(オリジナル)

We present the ShareGPT4Video series, aiming to facilitate the video understanding of large video-language models (LVLMs) and the video generation of text-to-video models (T2VMs) via dense and precise captions. The series comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with various lengths and sources, developed through carefully designed data filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that reached SOTA performance on three advancing video benchmarks. To achieve this, taking aside the non-scalable costly human annotators, we find using GPT4V to caption video with a naive multi-frame or frame-concatenation input strategy leads to less detailed and sometimes temporal-confused results. We argue the challenge of designing a high-quality video captioning strategy lies in three aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame detailed content description. 3) Frame-number scalability for arbitrary-length videos. To this end, we meticulously designed a differential video captioning strategy, which is stable, scalable, and efficient for generating captions for videos with arbitrary resolution, aspect ratios, and length. Based on it, we construct ShareGPT4Video, which contains 40K high-quality videos spanning a wide range of categories, and the resulting captions encompass rich world knowledge, object attributes, camera movements, and crucially, detailed and precise temporal descriptions of events. Based on ShareGPT4Video, we further develop ShareCaptioner-Video, a superior captioner capable of efficiently generating high-quality captions for arbitrary videos…

arxiv情報

著者 Lin Chen,Xilin Wei,Jinsong Li,Xiaoyi Dong,Pan Zhang,Yuhang Zang,Zehui Chen,Haodong Duan,Bin Lin,Zhenyu Tang,Li Yuan,Yu Qiao,Dahua Lin,Feng Zhao,Jiaqi Wang
発行日 2024-06-06 17:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク