Streaming Multiscale Deep Equilibrium Models

要約

我々は、最小限のフレーム単位の計算で動画像のフレーム単位の表現を推論する手法であるStreamDEQを発表する。従来の手法では、計算時間はネットワークの深さに対して少なくとも線形に増加するが、我々は連続的に表現を更新することを目的とする。この目的のために、固定小数点問題を解くことによって画像の表現を推測する、最近登場した暗黙層モデルを活用する。我々の主な洞察は、ゆっくりと変化する動画の性質を利用し、各フレームの初期条件として前フレームの表現を用いることである。この方式は、最近の推論計算を効果的に再利用し、必要な処理時間を大幅に短縮する。広範な実験分析により、StreamDEQは数フレーム時間で最適に近い表現を回復し、ビデオ期間を通して最新の表現を維持することができることを示す。ビデオセマンティックセグメンテーションとビデオオブジェクト検出の実験では、StreamDEQはベースライン(標準的なMDEQ)と同等の精度を達成しながら、$3times$以上高速であることが示された。コードとその他の結果は、https://ufukertenli.github.io/streamdeq/ にあります。

要約(オリジナル)

We present StreamDEQ, a method that infers frame-wise representations on videos with minimal per-frame computation. In contrast to conventional methods where compute time grows at least linearly with the network depth, we aim to update the representations in a continuous manner. For this purpose, we leverage the recently emerging implicit layer models, which infer the representation of an image by solving a fixed-point problem. Our main insight is to leverage the slowly changing nature of videos and use the previous frame representation as an initial condition on each frame. This scheme effectively recycles the recent inference computations and greatly reduces the needed processing time. Through extensive experimental analysis, we show that StreamDEQ is able to recover near-optimal representations in a few frames time, and maintain an up-to-date representation throughout the video duration. Our experiments on video semantic segmentation and video object detection show that StreamDEQ achieves on par accuracy with the baseline (standard MDEQ) while being more than $3\times$ faster. Code and additional results are available at https://ufukertenli.github.io/streamdeq/.

arxiv情報

著者 Can Ufuk Ertenli,Emre Akbas,Ramazan Gokberk Cinbis
発行日 2022-08-09 11:35:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク