RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression

要約

ビデオ エンコーダは、ビット レートの制約の下で再構成エラーを最小限に抑えることで、人間の知覚に合わせて圧縮を最適化します。
自動運転などの現代のアプリケーションの多くでは、圧倒的多数のビデオが、人間が視聴するのではなく、物体認識やセグメンテーションなどのタスクを実行する AI システムへの入力として機能します。
したがって、知覚的な画質のためではなく、下流のタスクのためにエンコーダを最適化することが有用です。
ただし、大きな課題は、このようなダウンストリームの最適化を、効率性が高く普及している既存の標準ビデオ エンコーダとどのように組み合わせるかということです。
ここでは、マクロブロック レベルで量子化パラメータ (QP) を制御して下流のタスクを最適化することで、この課題に対処します。
このきめ細かい制御により、各フレーム内のタスク関連領域のエンコードに優先順位を付けることができます。
この最適化問題は強化学習 (RL) タスクとして定式化され、エージェントはタスクのパフォーマンスとビットレート制約の両方に対する QP の選択の長期的な影響のバランスを取ることを学習します。
特に、私たちのポリシーは推論中の入力としてダウンストリーム タスクを必要としないため、ストリーミング アプリケーションや車両などのエッジ デバイスに適しています。
自動車検出と ROI (顕著性) エンコーディングという 2 つのタスクにおける大幅な改善を実証します。
私たちのアプローチは、従来のタスクに依存しないエンコーディング方法と比較して、特定のビット レートでのタスクのパフォーマンスを向上させ、より効率的なタスク認識ビデオ圧縮への道を開きます。

要約(オリジナル)

Video encoders optimize compression for human perception by minimizing reconstruction error under bit-rate constraints. In many modern applications such as autonomous driving, an overwhelming majority of videos serve as input for AI systems performing tasks like object recognition or segmentation, rather than being watched by humans. It is therefore useful to optimize the encoder for a downstream task instead of for perceptual image quality. However, a major challenge is how to combine such downstream optimization with existing standard video encoders, which are highly efficient and popular. Here, we address this challenge by controlling the Quantization Parameters (QPs) at the macro-block level to optimize the downstream task. This granular control allows us to prioritize encoding for task-relevant regions within each frame. We formulate this optimization problem as a Reinforcement Learning (RL) task, where the agent learns to balance long-term implications of choosing QPs on both task performance and bit-rate constraints. Notably, our policy does not require the downstream task as an input during inference, making it suitable for streaming applications and edge devices such as vehicles. We demonstrate significant improvements in two tasks, car detection, and ROI (saliency) encoding. Our approach improves task performance for a given bit rate compared to traditional task agnostic encoding methods, paving the way for more efficient task-aware video compression.

arxiv情報

著者 Uri Gadot,Assaf Shocher,Shie Mannor,Gal Chechik,Assaf Hallak
発行日 2025-01-21 15:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク