要約
ハウツー ビデオを作成するときに、各時点で表示する視点を自動的に選択することを学習するモデルである Switch-a-View を紹介します。
私たちのアプローチの重要な洞察は、ラベルが付いていないが人間が編集したビデオ サンプルからそのようなモデルをトレーニングする方法です。
私たちは、トレーニングビデオのセグメントに主な視点(自己中心的または外中心的)に擬似的にラベルを付けるという口実タスクを課し、一方でそれらの視点が切り替わる瞬間と、ハウツーの視覚的および音声コンテンツの間のパターンを発見します。
一方ビデオ。
この予測子を備えた私たちのモデルは、未見のマルチビュー ビデオを入力として受け取り、どの視点をいつ表示するかを調整します。
さらに、新しいデータ ドメインに向けてモデルを操作できるようにする数ショット トレーニング設定を導入します。
私たちは HowTo100M や Ego-Exo4D のさまざまな現実世界のビデオでアイデアを実証し、その利点を厳密に検証します。
要約(オリジナル)
We introduce Switch-a-View, a model that learns to automatically select the viewpoint to display at each timepoint when creating a how-to video. The key insight of our approach is how to train such a model from unlabeled–but human-edited–video samples. We pose a pretext task that pseudo-labels segments in the training videos for their primary viewpoint (egocentric or exocentric), and then discovers the patterns between those view-switch moments on the one hand and the visual and spoken content in the how-to video on the other hand. Armed with this predictor, our model then takes an unseen multi-view video as input and orchestrates which viewpoint should be displayed when. We further introduce a few-shot training setting that permits steering the model towards a new data domain. We demonstrate our idea on a variety of real-world video from HowTo100M and Ego-Exo4D and rigorously validate its advantages.
arxiv情報
著者 | Sagnik Majumder,Tushar Nagarajan,Ziad Al-Halah,Kristen Grauman |
発行日 | 2024-12-24 12:16:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google