要約
本稿では、ラベル付けされていない動画から生成されるイベントキャプションとそれに関連する擬似イベント境界の品質を向上させることを目的とした、密な動画キャプション(DVC)のための新しい事前学習フレームワークであるDive Into the BoundarieS(DIBS)を紹介する。多様な大規模言語モデル(LLM)の能力を活用することで、DVC指向の豊富なキャプション候補を生成し、多様性、イベント中心性、時間順序、一貫性を考慮したいくつかの綿密に設計された目的の下で、対応する擬似境界を最適化する。さらに、学習中に擬似境界の品質を反復的に改善する、新しいオンライン境界洗練戦略を導入する。提案手法の構成要素の有効性を検証するため、包括的な実験を行った。HowTo100Mのような大量のラベル無し動画データを活用することで、YouCook2やActivityNetのような標準的なDVCデータセットにおいて顕著な改善を達成した。Vid2Seqの事前学習に使用されたラベル無し動画データのわずか0.4%でこの結果を達成し、大多数の指標において、従来の最先端技術であるVid2Seqを凌駕している。
要約(オリジナル)
We present Dive Into the BoundarieS (DIBS), a novel pretraining framework for dense video captioning (DVC), that elaborates on improving the quality of the generated event captions and their associated pseudo event boundaries from unlabeled videos. By leveraging the capabilities of diverse large language models (LLMs), we generate rich DVC-oriented caption candidates and optimize the corresponding pseudo boundaries under several meticulously designed objectives, considering diversity, event-centricity, temporal ordering, and coherence. Moreover, we further introduce a novel online boundary refinement strategy that iteratively improves the quality of pseudo boundaries during training. Comprehensive experiments have been conducted to examine the effectiveness of the proposed technique components. By leveraging a substantial amount of unlabeled video data, such as HowTo100M, we achieve a remarkable advancement on standard DVC datasets like YouCook2 and ActivityNet. We outperform the previous state-of-the-art Vid2Seq across a majority of metrics, achieving this with just 0.4% of the unlabeled video data used for pre-training by Vid2Seq.
arxiv情報
| 著者 | Hao Wu,Huabin Liu,Yu Qiao,Xiao Sun |
| 発行日 | 2024-04-03 13:57:08+00:00 |
| arxivサイト | arxiv_id(pdf) |