MAUCell: An Adaptive Multi-Attention Framework for Video Frame Prediction

要約

時間シーケンスモデリングは、ビデオ予測システムとリアルタイム予測操作の基本的な基盤として、および異常検出アプリケーションとして存在します。
効率的なリソース消費による正確な予測の達成は、現代の一時的なシーケンスモデリングで継続的な問題のままです。
ビデオフレーム予測機能を改善するために、生成的敵対ネットワーク(GANS)と時空間注意メカニズムを組み合わせたマルチアテンションユニット(Maucell)を紹介します。
私たちのアプローチは、複雑なモーションシーケンスをキャプチャするために、3種類の注意モデルを実装しています。
これらの注意出力の動的な組み合わせにより、モデルは、計算上効率を残しながら、優れた品質とともに高度な決定精度の両方に到達できます。
GAN要素の統合により、生成されたフレームが寿命により忠実に見えます。したがって、フレームワークは、実際の映像を模倣する出力シーケンスを作成します。
新しい設計システムは、時間的連続性と空間精度の間の平衡を維持し、信頼できるビデオ予測を提供します。
知覚LPIPS測定を古典的なテストと統合した包括的な評価方法論により、MSE、MAE、SSIM、PSNRは、MNIST、KTHアクション、およびCASIA-B(前処理)データセットの直接ベンチマークテストに基づいて、現代のベンチマークテストに基づいて、現代のアプローチよりも強化能力を示しました。
私たちの試験は、モーセルが運用時間の要件に有望であることを示しています。
調査結果は、ビデオシーケンスを予測するためのより良いアプリケーションを作成するための注意メカニズムでGANがどのように最適かを示しています。

要約(オリジナル)

Temporal sequence modeling stands as the fundamental foundation for video prediction systems and real-time forecasting operations as well as anomaly detection applications. The achievement of accurate predictions through efficient resource consumption remains an ongoing issue in contemporary temporal sequence modeling. We introduce the Multi-Attention Unit (MAUCell) which combines Generative Adversarial Networks (GANs) and spatio-temporal attention mechanisms to improve video frame prediction capabilities. Our approach implements three types of attention models to capture intricate motion sequences. A dynamic combination of these attention outputs allows the model to reach both advanced decision accuracy along with superior quality while remaining computationally efficient. The integration of GAN elements makes generated frames appear more true to life therefore the framework creates output sequences which mimic real-world footage. The new design system maintains equilibrium between temporal continuity and spatial accuracy to deliver reliable video prediction. Through a comprehensive evaluation methodology which merged the perceptual LPIPS measurement together with classic tests MSE, MAE, SSIM and PSNR exhibited enhancing capabilities than contemporary approaches based on direct benchmark tests of Moving MNIST, KTH Action, and CASIA-B (Preprocessed) datasets. Our examination indicates that MAUCell shows promise for operational time requirements. The research findings demonstrate how GANs work best with attention mechanisms to create better applications for predicting video sequences.

arxiv情報

著者 Shreyam Gupta,P. Agrawal,Priyam Gupta
発行日 2025-01-28 14:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク