要約
軌跡予測は、一連のエージェント (例: エージェント) の将来の動きを予測できるため、ビデオ監視分析にとって非常に重要です。
バスケットボール選手たちは、長期的な意図を持って複雑なやりとりを行っていました。
深層生成モデルは、軌道予測のための自然な学習アプローチを提供しますが、サンプリングの忠実性と多様性の間の最適なバランスを達成するのが困難に直面します。
私たちは、離散潜在空間を利用して後方虚脱の問題に取り組むベクトル量子化変分オートエンコーダー (VQ-VAE) を活用することで、この課題に対処します。
具体的には、各例に合わせた潜在表現を可能にするインスタンスベースのコードブックを導入します。
簡単に言うと、コードブックの行は、コンテキスト情報 (つまり、観察された軌跡から抽出された過去の動きのパターン) を反映するように動的に調整されます。
このようにして、離散化プロセスは柔軟性を獲得し、再構成の改善につながります。
特に、インスタンスレベルのダイナミクスは、低ランクの更新を通じてコードブックに注入され、コードブックのカスタマイズがより低い次元空間に制限されます。
結果として得られる離散空間は、拡散ベースの予測モデルのトレーニングに関する次のステップの基礎として機能します。
このような 2 つのフレームワークがインスタンス レベルの離散化で強化され、正確で多様な予測につながり、3 つの確立されたベンチマークで最先端のパフォーマンスが得られることを示します。
要約(オリジナル)
Trajectory forecasting is crucial for video surveillance analytics, as it enables the anticipation of future movements for a set of agents, e.g. basketball players engaged in intricate interactions with long-term intentions. Deep generative models offer a natural learning approach for trajectory forecasting, yet they encounter difficulties in achieving an optimal balance between sampling fidelity and diversity. We address this challenge by leveraging Vector Quantized Variational Autoencoders (VQ-VAEs), which utilize a discrete latent space to tackle the issue of posterior collapse. Specifically, we introduce an instance-based codebook that allows tailored latent representations for each example. In a nutshell, the rows of the codebook are dynamically adjusted to reflect contextual information (i.e., past motion patterns extracted from the observed trajectories). In this way, the discretization process gains flexibility, leading to improved reconstructions. Notably, instance-level dynamics are injected into the codebook through low-rank updates, which restrict the customization of the codebook to a lower dimension space. The resulting discrete space serves as the basis of the subsequent step, which regards the training of a diffusion-based predictive model. We show that such a two-fold framework, augmented with instance-level discretization, leads to accurate and diverse forecasts, yielding state-of-the-art performance on three established benchmarks.
arxiv情報
著者 | Riccardo Benaglia,Angelo Porrello,Pietro Buzzega,Simone Calderara,Rita Cucchiara |
発行日 | 2024-05-31 10:13:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google