Scanpath Prediction in Panoramic Videos via Expected Code Length Minimization

要約

タイトル:期待符号長最小化によるパノラマ動画のスキャンパス予測
要約:

– パノラマ動画を探索する際の人間のスキャンパスの予測は困難であり、球面ジオメトリと多様性のある入力、そして不確実性と多様性のある出力に起因する。
– 以前のほとんどの方法はこれらの特徴の完全な扱いを与えず、したがってエラーに陥りがちであった。
– 本論文では、損失データ圧縮の原則に基づくスキャンパス予測のための単純な新しい基準を示し、トレーニングセット内の量子化されたスキャンパスの期待符号長を最小化することを提案する。
– つまり、確率モデルは、ビューポートシーケンスを変形削減された視覚入力と、各ビューポートに投影された相対的な歴史的なスキャンパスのセットという2つのモダリティに依存する。
– 確率モデルは、異なるユーザーのスキャンパスの不確実性と多様性を捉えるために、離散化された混合ガウスモデルの積でパラメータ化されている。
– 重要なことに、確率モデルのトレーニングには、模倣学習のための「グラウンドトゥルース」スキャンパスの指定が必要ではない。
– 学習された確率モデルから現実的な人間に似たスキャンパスを生成するための比例積分微分(PID)コントローラベースのサンプラーを紹介する。
– 実験結果は、広範な予測時間枠で予測精度(「グラウンドトゥルース」と比較して)および知覚的リアリズム(機械識別による)の両面でより優れた定量的なスキャンパス結果を一貫して生成することを示している。
– さらに、形式的な心理物理実験といくつかの未見のパノラマ動画データセットに対する知覚的リアリズムの改善と汎化能力の向上を検証する。

要約(オリジナル)

Predicting human scanpaths when exploring panoramic videos is a challenging task due to the spherical geometry and the multimodality of the input, and the inherent uncertainty and diversity of the output. Most previous methods fail to give a complete treatment of these characteristics, and thus are prone to errors. In this paper, we present a simple new criterion for scanpath prediction based on principles from lossy data compression. This criterion suggests minimizing the expected code length of quantized scanpaths in a training set, which corresponds to fitting a discrete conditional probability model via maximum likelihood. Specifically, the probability model is conditioned on two modalities: a viewport sequence as the deformation-reduced visual input and a set of relative historical scanpaths projected onto respective viewports as the aligned path input. The probability model is parameterized by a product of discretized Gaussian mixture models to capture the uncertainty and the diversity of scanpaths from different users. Most importantly, the training of the probability model does not rely on the specification of ‘ground-truth’ scanpaths for imitation learning. We also introduce a proportional-integral-derivative (PID) controller-based sampler to generate realistic human-like scanpaths from the learned probability model. Experimental results demonstrate that our method consistently produces better quantitative scanpath results in terms of prediction accuracy (by comparing to the assumed ‘ground-truths’) and perceptual realism (through machine discrimination) over a wide range of prediction horizons. We additionally verify the perceptual realism improvement via a formal psychophysical experiment and the generalization improvement on several unseen panoramic video datasets.

arxiv情報

著者 Mu Li,Kanglong Fan,Kede Ma
発行日 2023-05-05 03:24:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク