要約
近年、大規模視覚言語モデル (LVLM) は、マルチモーダル タスクにおいて優れたパフォーマンスと有望な汎化機能を示し、さまざまなアプリケーション シナリオで視覚情報の受信者として人間に取って代わりました。
この論文では、さまざまな LVLM に対して有望なレート精度パフォーマンスを達成するため、事前編集モジュールとエンドツーエンド コーデックで構成される可変ビットレート画像圧縮フレームワークを先駆者として提案しています。
特に、特定のタスクまたはいくつかの代表的なタスクに向けて適応型事前編集ネットワークを最適化する代わりに、トークンレベルの歪みとランクによる表現と識別能力に基づいて設計された、LVLM に合わせた新しい最適化戦略を提案します。
事前編集モジュールと可変ビットレートのエンドツーエンド画像コーデックは、大規模モデルのセマンティック トークンに基づく損失によって共同トレーニングされ、さまざまなデータとタスクに対する拡張された一般化機能が導入されます。
{実験結果は、提案されたフレームワークが、最先端のコーディング標準である Versatile Videocoding と比較して、はるかに優れたレート精度パフォーマンスを効率的に達成できることを示しています。} 一方、マルチモーダル タスクの実験では、堅牢性と一般化機能が明らかになりました。
提案されたフレームワークの説明。
要約(オリジナル)
In recent years, large visual language models (LVLMs) have shown impressive performance and promising generalization capability in multi-modal tasks, thus replacing humans as receivers of visual information in various application scenarios. In this paper, we pioneer to propose a variable bitrate image compression framework consisting of a pre-editing module and an end-to-end codec to achieve promising rate-accuracy performance for different LVLMs. In particular, instead of optimizing an adaptive pre-editing network towards a particular task or several representative tasks, we propose a new optimization strategy tailored for LVLMs, which is designed based on the representation and discrimination capability with token-level distortion and rank. The pre-editing module and the variable bitrate end-to-end image codec are jointly trained by the losses based on semantic tokens of the large model, which introduce enhanced generalization capability for various data and tasks. {Experimental results demonstrate that the proposed framework could efficiently achieve much better rate-accuracy performance compared to the state-of-the-art coding standard, Versatile Video Coding.} Meanwhile, experiments with multi-modal tasks have revealed the robustness and generalization capability of the proposed framework.
arxiv情報
著者 | Binzhe Li,Shurun Wang,Shiqi Wang,Yan Ye |
発行日 | 2024-07-24 07:37:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google