要約
ハウツービデオを作成するときに、各タイムポイントで表示する視点を自動的に選択することを学ぶモデルであるSwitch-A-Viewを紹介します。
私たちのアプローチの重要な洞察は、そのようなモデルを、無明であるが人間編集されたビデオサンプルからどのようにトレーニングするかです。
主な視点(エゴセントリックまたはエクソセントリック)のトレーニングビデオに擬似ラベルがセグメントを作成する口実のタスクを提起し、一方ではハウツービデオで視覚コンテンツと話し言葉の間のパターンを発見します。
この予測因子を武装して、私たちのモデルは、そのような設定に限られたラベルが付いている場合でも、どの視点を表示するかを調整するための新しいマルチビュービデオ設定に適用できます。
Howto100MとEgo-Exo4Dのさまざまな現実世界のビデオに関するアイデアを示し、その利点を厳密に検証します。
プロジェクト:https://vision.cs.utexas.edu/projects/switch_a_view/。
要約(オリジナル)
We introduce SWITCH-A-VIEW, a model that learns to automatically select the viewpoint to display at each timepoint when creating a how-to video. The key insight of our approach is how to train such a model from unlabeled — but human-edited — video samples. We pose a pretext task that pseudo-labels segments in the training videos for their primary viewpoint (egocentric or exocentric), and then discovers the patterns between the visual and spoken content in a how-to video on the one hand and its view-switch moments on the other hand. Armed with this predictor, our model can be applied to new multi-view video settings for orchestrating which viewpoint should be displayed when, even when such settings come with limited labels. We demonstrate our idea on a variety of real-world videos from HowTo100M and Ego-Exo4D, and rigorously validate its advantages. Project: https://vision.cs.utexas.edu/projects/switch_a_view/.
arxiv情報
著者 | Sagnik Majumder,Tushar Nagarajan,Ziad Al-Halah,Kristen Grauman |
発行日 | 2025-04-22 13:23:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google