LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models

要約

大規模なマルチモーダルモデル(LMM)は、ビデオ理解タスクで顕著なパフォーマンスを示しており、1時間以上ビデオを処理することもできます。
ただし、長い入力を処理する能力にもかかわらず、対応するレベルの豊かさを持つ出力を生成することは依然として課題です。
このホワイトペーパーでは、プロキシタスクとしてビデオキャプションを使用してLMMSの長い出力の問題を調査し、オープンソースLMMSが約300ワードを超える出力を一貫して生成するのに苦労していることがわかります。
制御された実験を通じて、トレーニング中のペアの例の希少性と長期キャプションがモデルの出力長を制限する主要な要因であることがわかります。
ただし、手動で長いキャプションの例を注釈するのは時間がかかり、高価です。
これに対処するために、マルチレベルの説明を集約することにより長いキャプションデータを合成するフレームワークであるLongcaption-Agentを提案します。
Longcaption-Agentを使用して、新しい長キャプテンデータセット、LongCaption-10Kをキュレーションしました。
また、LMMSによって生成された長いキャプションの品質を包括的に評価するために設計されたベンチマークであるLongcaption-benchも開発します。
LongCaption-10Kをトレーニングに組み込むことにより、LMMSが1,000語を超えるキャプションを生成し、高出力品質を維持します。
ロングキャプションベンチでは、8Bパラメーターモデルが最先端のパフォーマンスを達成し、より大きな独自モデルを超えています。
公開後にデータセットとコードをリリースします。

要約(オリジナル)

Large multimodal models (LMMs) have shown remarkable performance in video understanding tasks and can even process videos longer than one hour. However, despite their ability to handle long inputs, generating outputs with corresponding levels of richness remains a challenge. In this paper, we explore the issue of long outputs in LMMs using video captioning as a proxy task, and we find that open-source LMMs struggle to consistently generate outputs exceeding about 300 words. Through controlled experiments, we find that the scarcity of paired examples with long-captions during training is the primary factor limiting the model’s output length. However, manually annotating long-caption examples is time-consuming and expensive. To address this, we propose the LongCaption-Agent, a framework that synthesizes long caption data by aggregating multi-level descriptions. Using LongCaption-Agent, we curated a new long-caption dataset, LongCaption-10K. We also develop LongCaption-Bench, a benchmark designed to comprehensively evaluate the quality of long captions generated by LMMs. By incorporating LongCaption-10K into training, we enable LMMs to generate captions exceeding 1,000 words, while maintaining high output quality. In LongCaption-Bench, our 8B parameter model achieved state-of-the-art performance, even surpassing larger proprietary models. We will release the dataset and code after publication.

arxiv情報

著者 Hongchen Wei,Zhihong Tan,Yaosi Hu,Changwen Chen,Zhenzhong Chen
発行日 2025-02-21 11:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク