要約
マルチビュー ビデオが与えられた場合、人間の観察者にとってどの視点が最も有益ですか?
既存の方法は、この質問に答えるためにヒューリスティックまたは高価な「ベストビュー」監視に依存しており、その適用性が制限されています。
私たちは、最も有益な視点を回復する手段として、教育用多視点ビデオに付随する言語を活用する、弱く教師ありのアプローチを提案します。
私たちの重要な仮説は、個々のビューがビューに依存しないテキストの概要をより正確に予測できるほど、その要約の情報量が多くなるということです。
これを実行するために、ビュー依存のキャプション予測の相対精度を最良のビュー疑似ラベルの代用として使用するフレームワークを提案します。
次に、それらの疑似ラベルは、ビューの感度を高める補助カメラ姿勢予測子とともに、ビュー セレクタをトレーニングするために使用されます。
推論中、モデルは入力としてマルチビュー ビデオのみを受け取り、言語やカメラのポーズは受け取りません。そして、各タイムステップで見るのに最適な視点を返します。
多様なマルチカメラ設定とハウツーアクティビティで構成される 2 つの困難なデータセット上で、私たちのモデルは、定量的指標と人間による評価の両方で、常に最先端のベースラインを上回っています。
要約(オリジナル)
Given a multi-view video, which viewpoint is most informative for a human observer? Existing methods rely on heuristics or expensive “best-view’ supervision to answer this question, limiting their applicability. We propose a weakly supervised approach that leverages language accompanying an instructional multi-view video as a means to recover its most informative viewpoint(s). Our key hypothesis is that the more accurately an individual view can predict a view-agnostic text summary, the more informative it is. To put this into action, we propose a framework that uses the relative accuracy of view-dependent caption predictions as a proxy for best view pseudo-labels. Then, those pseudo-labels are used to train a view selector, together with an auxiliary camera pose predictor that enhances view-sensitivity. During inference, our model takes as input only a multi-view video — no language or camera poses — and returns the best viewpoint to watch at each timestep. On two challenging datasets comprised of diverse multi-camera setups and how-to activities, our model consistently outperforms state-of-the-art baselines, both with quantitative metrics and human evaluation.
arxiv情報
著者 | Sagnik Majumder,Tushar Nagarajan,Ziad Al-Halah,Reina Pradhan,Kristen Grauman |
発行日 | 2024-11-13 16:31:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google