Towards Scalable Neural Representation for Diverse Videos

要約

暗黙的ニューラル表現 (INR) は、3D シーンと画像を表現する際にますます注目を集めており、最近ではビデオのエンコードに適用されています (NeRV、E-NeRV など)。
有望な結果を達成する一方で、既存の INR ベースの方法は、冗長なビジュアル コンテンツを含む少数の短いビデオ (たとえば、UVG データセット内の 7 つの 5 秒のビデオ) のエンコードに限定されており、個々のビデオ フレームに個別に適合するモデル設計につながります。
多数の多様なビデオに効率的に拡張できません。
このホワイト ペーパーでは、より実用的なセットアップのためのニューラル表現の開発に焦点を当てています。つまり、多様なビジュアル コンテンツを含む長いビデオや多数のビデオをエンコードします。
最初に、ビデオを小さなサブセットに分割して別々のモデルでエンコードする代わりに、長くて多様なビデオを統一モデルで一緒にエンコードすると、より良い圧縮結果が得られることを示します。
この観察に基づいて、D-NeRV を提案します。これは、(i) モーション情報からクリップ固有のビジュアル コンテンツを分離し、(ii) 暗黙的なニューラル ネットワークに時間的推論を導入し、(iii) 多様なビデオをエンコードするように設計された新しいニューラル表現フレームワークです。
) タスク指向のフローを中間出力として使用して、空間的な冗長性を減らします。
私たちの新しいモデルは、NeRV および UCF101 の従来のビデオ圧縮技術と、ビデオ圧縮タスクの UVG データセットを大幅に上回っています。
さらに、効率的なデータローダーとして使用すると、D-NeRV は同じ圧縮率で UCF101 データセットのアクション認識タスクで NeRV よりも 3% ~ 10% 高い精度を達成します。

要約(オリジナル)

Implicit neural representations (INR) have gained increasing attention in representing 3D scenes and images, and have been recently applied to encode videos (e.g., NeRV, E-NeRV). While achieving promising results, existing INR-based methods are limited to encoding a handful of short videos (e.g., seven 5-second videos in the UVG dataset) with redundant visual content, leading to a model design that fits individual video frames independently and is not efficiently scalable to a large number of diverse videos. This paper focuses on developing neural representations for a more practical setup — encoding long and/or a large number of videos with diverse visual content. We first show that instead of dividing videos into small subsets and encoding them with separate models, encoding long and diverse videos jointly with a unified model achieves better compression results. Based on this observation, we propose D-NeRV, a novel neural representation framework designed to encode diverse videos by (i) decoupling clip-specific visual content from motion information, (ii) introducing temporal reasoning into the implicit neural network, and (iii) employing the task-oriented flow as intermediate output to reduce spatial redundancies. Our new model largely surpasses NeRV and traditional video compression techniques on UCF101 and UVG datasets on the video compression task. Moreover, when used as an efficient data-loader, D-NeRV achieves 3%-10% higher accuracy than NeRV on action recognition tasks on the UCF101 dataset under the same compression ratios.

arxiv情報

著者 Bo He,Xitong Yang,Hanyu Wang,Zuxuan Wu,Hao Chen,Shuaiyi Huang,Yixuan Ren,Ser-Nam Lim,Abhinav Shrivastava
発行日 2023-03-24 16:32:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク