Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos

要約

私たちは、エキソセントリックなビューを持つ Web 教育ビデオからエゴセントリックなビューにモデルを適応させ、高密度ビデオキャプションのクロスビュー知識伝達のための新しいベンチマークを提案します。
高密度ビデオキャプション (時間セグメントとそのキャプションの予測) は主にエキソセントリックビデオ (YouCook2 など) で研究されていますが、エゴセントリックビデオでのベンチマークはデータ不足のため制限されています。
利用可能なビデオの制限を克服するには、豊富なエキソセントリックな Web ビデオから知識を伝達することが現実的なアプローチとして求められます。
しかし、外中心的視点と自己中心的視点の対応関係を学習することは、視点が動的に変化するため困難です。
ウェブビデオには、人体の動作またはクローズアップの手と物体の相互作用に焦点を当てた混合ビューが含まれていますが、カメラ装着者の移動に応じて自己中心的なビューは常に変化します。
これには、複雑なビュー変更下でのクロスビュー転送の詳細な研究が必要です。
この作業では、まず現実の自己中心的なデータセット (EgoYC2) を作成します。このデータセットのキャプションは YouCook2 と共有され、グラウンド トゥルースがアクセス可能であると仮定して、これらのデータセット間の転移学習が可能になります。
ビューのギャップを埋めるために、事前トレーニングと微調整の両方の段階で敵対的トレーニングを使用するビュー不変学習方法を提案します。
事前トレーニングは、Web ビデオ内の混合ビューに対して不変の特徴を学習するように設計されていますが、ビュー不変の微調整により、両方のデータセット間のビューのギャップがさらに軽減されます。
提案された方法がどのように効果的にビュー変更問題を克服し、知識を自己中心的な領域に効率的に転送するかを研究することによって、提案された方法を検証します。
私たちのベンチマークは、クロスビュー転送の研究を高密度ビデオキャプションという新しいタスク領域に押し込み、自然言語で自己中心的なビデオを説明する方法論を構想します。

要約(オリジナル)

We propose a novel benchmark for cross-view knowledge transfer of dense video captioning, adapting models from web instructional videos with exocentric views to an egocentric view. While dense video captioning (predicting time segments and their captions) is primarily studied with exocentric videos (e.g., YouCook2), benchmarks with egocentric videos are restricted due to data scarcity. To overcome the limited video availability, transferring knowledge from abundant exocentric web videos is demanded as a practical approach. However, learning the correspondence between exocentric and egocentric views is difficult due to their dynamic view changes. The web videos contain mixed views focusing on either human body actions or close-up hand-object interactions, while the egocentric view is constantly shifting as the camera wearer moves. This necessitates the in-depth study of cross-view transfer under complex view changes. In this work, we first create a real-life egocentric dataset (EgoYC2) whose captions are shared with YouCook2, enabling transfer learning between these datasets assuming their ground-truth is accessible. To bridge the view gaps, we propose a view-invariant learning method using adversarial training in both the pre-training and fine-tuning stages. While the pre-training is designed to learn invariant features against the mixed views in the web videos, the view-invariant fine-tuning further mitigates the view gaps between both datasets. We validate our proposed method by studying how effectively it overcomes the view change problem and efficiently transfers the knowledge to the egocentric domain. Our benchmark pushes the study of the cross-view transfer into a new task domain of dense video captioning and will envision methodologies to describe egocentric videos in natural language.

arxiv情報

著者 Takehiko Ohkawa,Takuma Yagi,Taichi Nishimura,Ryosuke Furuta,Atsushi Hashimoto,Yoshitaka Ushiku,Yoichi Sato
発行日 2023-11-29 06:01:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク