要約
コンテンツ適応型圧縮は、さまざまなコンテンツに対する事前トレーニングされたニューラル コーデックの適応性を高めるために非常に重要です。
これらの方法はニューラル画像圧縮 (NIC) では非常に実用的ですが、ニューラル ビデオ圧縮 (NVC) での応用は次の 2 つの主な側面により依然として制限されています。 1) ビデオ圧縮は時間的冗長性に大きく依存しているため、1 つまたは 1 つだけを更新します。
フレームが少ないと、時間の経過とともに重大なエラーが蓄積される可能性があります。
2)、NVC フレームワークは一般により複雑で、エンコード中に迅速に更新するのが難しい大規模なコンポーネントが多数含まれています。
前述の課題に対処するために、グループ認識パラメータ効率更新 (GPU) と呼ばれるコンテンツ適応型 NVC 技術を開発しました。
最初に、エラーの蓄積を最小限に抑えるために、エンコーダ パラメータの更新にグループを意識したアプローチを採用します。
これには、ビデオをパッチベースの GoP に分割するパッチベースの Group of Pictures (GoP) トレーニング戦略の採用が含まれます。グローバルに最適化されたドメイン移行可能なソリューションを促進するために更新されます。
続いて、パラメータ効率の高いデルタチューニング戦略を導入します。これは、シリアルおよびパラレル構成の両方によって、エンコードプロセスの各コーディングコンポーネントにいくつかの軽量アダプターを統合することによって実現されます。
このようなアーキテクチャに依存しないモジュールは、大きなパラメータでコンポーネントを刺激するため、更新コストとエンコード時間の両方が削減されます。
当社は GPU を最新の NVC フレームワークに組み込み、包括的な実験を実施しました。その結果、4 つのビデオ ベンチマークにわたる優れたビデオ圧縮効率と 1 つの医用画像ベンチマークの適応性が実証されました。
要約(オリジナル)
Content-adaptive compression is crucial for enhancing the adaptability of the pre-trained neural codec for various contents. Although these methods have been very practical in neural image compression (NIC), their application in neural video compression (NVC) is still limited due to two main aspects: 1), video compression relies heavily on temporal redundancy, therefore updating just one or a few frames can lead to significant errors accumulating over time; 2), NVC frameworks are generally more complex, with many large components that are not easy to update quickly during encoding. To address the previously mentioned challenges, we have developed a content-adaptive NVC technique called Group-aware Parameter-Efficient Updating (GPU). Initially, to minimize error accumulation, we adopt a group-aware approach for updating encoder parameters. This involves adopting a patch-based Group of Pictures (GoP) training strategy to segment a video into patch-based GoPs, which will be updated to facilitate a globally optimized domain-transferable solution. Subsequently, we introduce a parameter-efficient delta-tuning strategy, which is achieved by integrating several light-weight adapters into each coding component of the encoding process by both serial and parallel configuration. Such architecture-agnostic modules stimulate the components with large parameters, thereby reducing both the update cost and the encoding time. We incorporate our GPU into the latest NVC framework and conduct comprehensive experiments, whose results showcase outstanding video compression efficiency across four video benchmarks and adaptability of one medical image benchmark.
arxiv情報
著者 | Zhenghao Chen,Luping Zhou,Zhihao Hu,Dong Xu |
発行日 | 2024-05-07 12:42:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google