要約
ユーザーのリクエストに応じて自然言語でビデオを自動的にナレーションすること、つまり、制御可能なビデオ キャプション タスクは、ユーザーが望ましい意図で大量のビデオを管理するのに役立ちます。
しかし、既存の作品には次の 2 つの欠点があります。1) 制御信号が単一であり、多様なユーザーの意図を満たせない。
2) ビデオの説明は 1 ラウンドで生成され、動的なニーズに合わせてさらに編集することはできません。
この論文では、マルチグレインのユーザーリクエストに基づいて既存のビデオ説明を自動的に修正する新しい \textbf{V}ideo \textbf{C}aption \textbf{E}diting \textbf{(VCE)} タスクを提案します。
人間の執筆と修正の習慣からインスピレーションを得て、ユーザー コマンドを重要なトリプレット \{\textit{操作、位置、属性}\} として設計し、粗いものから細かいものまでの多様なユーザー ニーズに対応します。
VCE タスクを容易にするために、VATEX-EDIT という名前のオープンドメイン ベンチマーク データセットを \textit{自動的に}構築し、EMMAD-EDIT という名前の電子商取引データセットを \textit{手動} で収集します。
さらに、新しいタスクの徹底的な分析を実行するために、2 つの汎用的な大規模マルチモーダル モデルと比較して、特化した小規模モデル (つまり OPA) を提案します。
評価には、キャプションの流暢性、コマンドとキャプションの一貫性、ビデオとキャプションの整合性を考慮した包括的な指標を採用します。
実験により、きめの細かいマルチモーダルセマンティクスの理解と処理というタスクの課題が明らかになりました。
データセット、コード、評価ツールは https://github.com/yaolinli/VCE で入手できます。
要約(オリジナル)
Automatically narrating videos in natural language complying with user requests, i.e. Controllable Video Captioning task, can help people manage massive videos with desired intentions. However, existing works suffer from two shortcomings: 1) the control signal is single-grained which can not satisfy diverse user intentions; 2) the video description is generated in a single round which can not be further edited to meet dynamic needs. In this paper, we propose a novel \textbf{V}ideo \textbf{C}aption \textbf{E}diting \textbf{(VCE)} task to automatically revise an existing video description guided by multi-grained user requests. Inspired by human writing-revision habits, we design the user command as a pivotal triplet \{\textit{operation, position, attribute}\} to cover diverse user needs from coarse-grained to fine-grained. To facilitate the VCE task, we \textit{automatically} construct an open-domain benchmark dataset named VATEX-EDIT and \textit{manually} collect an e-commerce dataset called EMMAD-EDIT. We further propose a specialized small-scale model (i.e., OPA) compared with two generalist Large Multi-modal Models to perform an exhaustive analysis of the novel task. For evaluation, we adopt comprehensive metrics considering caption fluency, command-caption consistency, and video-caption alignment. Experiments reveal the task challenges of fine-grained multi-modal semantics understanding and processing. Our datasets, codes, and evaluation tools are available at https://github.com/yaolinli/VCE.
arxiv情報
著者 | Linli Yao,Yuanmeng Zhang,Ziheng Wang,Xinglin Hou,Tiezheng Ge,Yuning Jiang,Xu Sun,Qin Jin |
発行日 | 2024-08-08 09:28:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google