Long-horizon video prediction using a dynamic latent hierarchy

要約

ビデオの予測と生成のタスクは非常に難しいことが知られており、この分野の研究は主に短期的な予測に限定されています。
ノイズと確率論に悩まされていますが、ビデオは時空間階層で編成された機能で構成されており、さまざまな機能が異なる時間ダイナミクスを持っています。
このホワイト ペーパーでは、動的潜在階層 (DLH) を紹介します。これは、個別の流動的な時間スケールで進化する潜在状態の階層としてビデオを表す深い階層潜在モデルです。
各潜在状態は、直前の過去と予測された未来を表す 2 つの成分を含む混合分布であり、モデルは十分に異なる状態間の遷移のみを学習し、一時的に永続的な状態をより近くにクラスター化します。
このユニークなプロパティを使用して、DLH は自然にデータセットの時空間構造を発見し、その階層全体で絡み合っていない表現を学習します。
これにより、ビデオの時間的ダイナミクスをモデル化するタスクが簡素化され、長期的な依存関係の学習が改善され、エラーの蓄積が減少すると仮定しています。
証拠として、DLH がビデオ予測の最先端のベンチマークよりも優れていること、確率論をより適切に表現できること、およびその階層構造と時間構造を動的に調整できることを示しています。
私たちの論文は、とりわけ、表現学習の進歩がどのように予測タスクの進歩につながるかを示しています。

要約(オリジナル)

The task of video prediction and generation is known to be notoriously difficult, with the research in this area largely limited to short-term predictions. Though plagued with noise and stochasticity, videos consist of features that are organised in a spatiotemporal hierarchy, different features possessing different temporal dynamics. In this paper, we introduce Dynamic Latent Hierarchy (DLH) — a deep hierarchical latent model that represents videos as a hierarchy of latent states that evolve over separate and fluid timescales. Each latent state is a mixture distribution with two components, representing the immediate past and the predicted future, causing the model to learn transitions only between sufficiently dissimilar states, while clustering temporally persistent states closer together. Using this unique property, DLH naturally discovers the spatiotemporal structure of a dataset and learns disentangled representations across its hierarchy. We hypothesise that this simplifies the task of modeling temporal dynamics of a video, improves the learning of long-term dependencies, and reduces error accumulation. As evidence, we demonstrate that DLH outperforms state-of-the-art benchmarks in video prediction, is able to better represent stochasticity, as well as to dynamically adjust its hierarchical and temporal structure. Our paper shows, among other things, how progress in representation learning can translate into progress in prediction tasks.

arxiv情報

著者 Alexey Zakharov,Qinghai Guo,Zafeirios Fountas
発行日 2022-12-29 17:19:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク