要約
ビデオのキャプションは、ビデオの内容を説明する文章を生成します。
既存の方法では、モデルをトレーニングするためにビデオごとに常に多数のキャプション (例: 10 または 20) が必要であり、非常にコストがかかります。
この研究では、たった 1 つまたはごく少数のグラウンドトゥルース センテンスを使用する可能性を調査し、少数教師付きビデオ キャプションという新しいタスクを導入します。
具体的には、語彙的に制約された擬似ラベル付けモジュールとキーワード絞り込みキャプション モジュールで構成される少数教師付きビデオ キャプション フレームワークを提案します。
無効な変更 (単語の編集) を引き起こす可能性がある自然言語処理のランダム サンプリングとは異なり、前者のモジュールは、事前トレーニングされたトークンによるいくつかのアクション (コピー、置換、挿入、削除など) を使用して単語を編集するようにモデルをガイドします。
-レベル分類器を使用して、事前トレーニングされた言語モデルによって候補文を微調整します。
一方、前者は、反復ペナルティ付きサンプリングを採用して、モデルが反復の少ない簡潔な擬似ラベル付き文を生成することを促進し、事前トレーニングされたビデオテキストモデルに基づいて最も関連性の高い文を選択します。
さらに、擬似ラベル付き文とビデオコンテンツの間の意味的一貫性を維持するために、ビデオキーワードゲート融合戦略を備えたトランスフォーマーベースのキーワードリファインナーを開発し、関連する単語をより強調します。
いくつかのベンチマークに関する広範な実験により、少数の教師ありシナリオと完全教師ありのシナリオの両方で提案されたアプローチの利点が実証されています。
コードの実装は https://github.com/mlvccn/PKG_VidCap で入手できます。
要約(オリジナル)
Video captioning generate a sentence that describes the video content. Existing methods always require a number of captions (\eg, 10 or 20) per video to train the model, which is quite costly. In this work, we explore the possibility of using only one or very few ground-truth sentences, and introduce a new task named few-supervised video captioning. Specifically, we propose a few-supervised video captioning framework that consists of lexically constrained pseudo-labeling module and keyword-refined captioning module. Unlike the random sampling in natural language processing that may cause invalid modifications (\ie, edit words), the former module guides the model to edit words using some actions (\eg, copy, replace, insert, and delete) by a pretrained token-level classifier, and then fine-tunes candidate sentences by a pretrained language model. Meanwhile, the former employs the repetition penalized sampling to encourage the model to yield concise pseudo-labeled sentences with less repetition, and selects the most relevant sentences upon a pretrained video-text model. Moreover, to keep semantic consistency between pseudo-labeled sentences and video content, we develop the transformer-based keyword refiner with the video-keyword gated fusion strategy to emphasize more on relevant words. Extensive experiments on several benchmarks demonstrate the advantages of the proposed approach in both few-supervised and fully-supervised scenarios. The code implementation is available at https://github.com/mlvccn/PKG_VidCap
arxiv情報
著者 | Ping Li,Tao Wang,Xinkui Zhao,Xianghua Xu,Mingli Song |
発行日 | 2024-11-06 17:11:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google