要約
伝送遅延は、リアルタイムのインタラクションやアクチュエーションにおけるユーザーの体験品質に大きく影響する。遅延は基本的に不可避であるため、ビデオ予測を利用することで遅延を軽減し、最終的には遅延ゼロの伝送を可能にすることができる。しかし、既存のビデオ予測手法のほとんどは計算コストが高く、リアルタイムアプリケーションには実用的ではない。そこで本研究では、IFRVP(Intermediate Feature Refinement Video Prediction)と呼ばれる、ネットワークを介したゼロ遅延インタラクションに向けたリアルタイムビデオ予測を提案する。まず、IFRNetに基づく単純な畳み込みのみのフレーム補間ネットワークを利用し、フレーム補間モデルを拡張した映像予測のための3つの学習方法を提案する。第二に、ELANベースの残差ブロックを予測モデルに導入し、推論速度と精度の両方を向上させる。我々の評価により、提案モデルが効率的に動作し、既存の動画予測手法の中で予測精度と計算速度の間の最良のトレードオフを達成することが示された。デモムービーもhttp://bit.ly/IFRVPDemo。コードはhttps://github.com/FykAikawa/IFRVP。
要約(オリジナル)
Transmission latency significantly affects users’ quality of experience in real-time interaction and actuation. As latency is principally inevitable, video prediction can be utilized to mitigate the latency and ultimately enable zero-latency transmission. However, most of the existing video prediction methods are computationally expensive and impractical for real-time applications. In this work, we therefore propose real-time video prediction towards the zero-latency interaction over networks, called IFRVP (Intermediate Feature Refinement Video Prediction). Firstly, we propose three training methods for video prediction that extend frame interpolation models, where we utilize a simple convolution-only frame interpolation network based on IFRNet. Secondly, we introduce ELAN-based residual blocks into the prediction models to improve both inference speed and accuracy. Our evaluations show that our proposed models perform efficiently and achieve the best trade-off between prediction accuracy and computational speed among the existing video prediction methods. A demonstration movie is also provided at http://bit.ly/IFRVPDemo. The code will be released at https://github.com/FykAikawa/IFRVP.
arxiv情報
著者 | Shota Hirose,Kazuki Kotoyori,Kasidis Arunruangsirilert,Fangzheng Lin,Heming Sun,Jiro Katto |
発行日 | 2025-04-04 14:29:20+00:00 |
arxivサイト | arxiv_id(pdf) |