Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision

要約

デコードされたビットストリームは通常、人間またはマシンのニーズにのみ対応し、目に見えない視覚的なタスクのための情報を保存できないため、画像圧縮モデルは適応性と一般化に長い間苦労してきました。
したがって、この論文では、マルチモーダル事前トレーニング モデルから得られる監視を革新的に導入し、単一のビットストリームで人間の視覚認識とマシン ビジョンの両方を同時にサポートするように調整された適応型多目的最適化を組み込みます。これは、Unified and Generalized Imagecoding for Machine (UG-ICM) と呼ばれます
)。
具体的には、下流のタスク監視による圧縮モデル間の依存を取り除くために、一般化を改善するために、対照的言語画像事前トレーニング (CLIP) モデルをトレーニング制約に導入します。
グローバルからインスタンスごとの CLIP 監視は、さまざまな粒度の情報に依存するタスクに対してモデルをより一般化できる階層セマンティクスを取得するために適用されます。
さらに、統合ビットストリームのみで人間のビジョンとマシンのビジョンの両方をサポートするために、人間またはマシンの好みを条件とする条件付きデコード戦略を組み込み、ビットストリームを対応する好みに応じて異なるバージョンにデコードできるようにします。
そのため、私たちが提案する UG-ICM は、自己監視型の方法で、つまり、特定の下流モデルやタスクを意識することなく、完全にトレーニングされます。
広範な実験により、提案された UG-ICM が、知覚的に満足のいく画像を提供しながら、目に見えないさまざまな機械分析タスクにおいて顕著な改善を達成できることが示されました。

要約(オリジナル)

The image compression model has long struggled with adaptability and generalization, as the decoded bitstream typically serves only human or machine needs and fails to preserve information for unseen visual tasks. Therefore, this paper innovatively introduces supervision obtained from multimodal pre-training models and incorporates adaptive multi-objective optimization tailored to support both human visual perception and machine vision simultaneously with a single bitstream, denoted as Unified and Generalized Image Coding for Machine (UG-ICM). Specifically, to get rid of the reliance between compression models with downstream task supervision, we introduce Contrastive Language-Image Pre-training (CLIP) models into the training constraint for improved generalization. Global-to-instance-wise CLIP supervision is applied to help obtain hierarchical semantics that make models more generalizable for the tasks relying on the information of different granularity. Furthermore, for supporting both human and machine visions with only a unifying bitstream, we incorporate a conditional decoding strategy that takes as conditions human or machine preferences, enabling the bitstream to be decoded into different versions for corresponding preferences. As such, our proposed UG-ICM is fully trained in a self-supervised manner, i.e., without awareness of any specific downstream models and tasks. The extensive experiments have shown that the proposed UG-ICM is capable of achieving remarkable improvements in various unseen machine analytics tasks, while simultaneously providing perceptually satisfying images.

arxiv情報

著者 Kangsheng Yin,Quan Liu,Xuelin Shen,Yulin He,Wenhan Yang,Shiqi Wang
発行日 2025-01-08 15:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク