Edit As You Wish: Video Caption Editing with Multi-grained User Control

要約

ユーザの要求に応じて自然言語で自動的にナレーションを行うこと、すなわち、制御可能なビデオキャプションのタスクは、人々が望む意図で膨大なビデオを管理するのに役立つ。しかし、既存の作品には2つの欠点がある:1)制御信号が単一粒度であるため、多様なユーザの意図を満たすことができない。2)ビデオ説明は一回で生成されるため、動的なニーズを満たすためにさらに編集することができない。本論文では、多階調のユーザー要求によって導かれる既存のビデオ記述を自動的に修正する、新規な「⾳映像⾳景⾳景⾳景⾳景⾳景⾳景⾳景⾳景の編集」タスクを提案する。人間の文章を修正する習慣にヒントを得て、粗い粒度から細かい粒度までの多様なユーザーニーズをカバーするために、ユーザーコマンドを極めて重要な三重項として設計する。VCEタスクを容易にするために、VATEX-EDITというオープンドメインのベンチマークデータセットを構築し、EMMAD-EDITという電子商取引データセットを収集する。さらに、新規タスクの網羅的な分析を行うために、2つの汎用の大規模マルチモーダルモデルと比較した、特化した小規模モデル(すなわちOPA)を提案する。評価には、キャプションの流暢性、コマンドとキャプションの整合性、ビデオとキャプションの整合を考慮した包括的な指標を採用する。実験により、きめ細かなマルチモーダルセマンティクスの理解と処理というタスクの課題が明らかになった。我々のデータセット、コード、評価ツールはオープンソースとして提供可能である。

要約(オリジナル)

Automatically narrating videos in natural language complying with user requests, i.e. Controllable Video Captioning task, can help people manage massive videos with desired intentions. However, existing works suffer from two shortcomings: 1) the control signal is single-grained which can not satisfy diverse user intentions; 2) the video description is generated in a single round which can not be further edited to meet dynamic needs. In this paper, we propose a novel \textbf{V}ideo \textbf{C}aption \textbf{E}diting \textbf{(VCE)} task to automatically revise an existing video description guided by multi-grained user requests. Inspired by human writing-revision habits, we design the user command as a pivotal triplet \{\textit{operation, position, attribute}\} to cover diverse user needs from coarse-grained to fine-grained. To facilitate the VCE task, we \textit{automatically} construct an open-domain benchmark dataset named VATEX-EDIT and \textit{manually} collect an e-commerce dataset called EMMAD-EDIT. We further propose a specialized small-scale model (i.e., OPA) compared with two generalist Large Multi-modal Models to perform an exhaustive analysis of the novel task. For evaluation, we adopt comprehensive metrics considering caption fluency, command-caption consistency, and video-caption alignment. Experiments reveal the task challenges of fine-grained multi-modal semantics understanding and processing. Our datasets, codes, and evaluation tools are ready to be open-sourced.

arxiv情報

著者 Linli Yao,Yuanmeng Zhang,Ziheng Wang,Xinglin Hou,Tiezheng Ge,Yuning Jiang,Xu Sun,Qin Jin
発行日 2024-06-03 07:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク