要約
学習された画像圧縮は、超低ビットレートを効率的に達成できるため、広く普及しています。
しかし、実質的なテキスト コンテンツを含む画像、特にスクリーン コンテンツ画像 (SCI) は、そのような圧縮レベルでテキストの歪みが発生することがよくあります。
これに対処するために、元の画像と再構成された画像の間のテキストの差異を定量化するように設計された新しいテキスト ロジット損失を最小限に抑え、それによって再構成されたテキストの知覚品質を向上させることを提案します。
多様なデータセットにわたる厳密な実験と最先端のアルゴリズムの採用を通じて、私たちの発見は、提案された損失関数と適切な重み付けを統合すると、再構成されたテキストの品質が大幅に向上することを明らかにしました。
特に、2 つのスクリーンショット データセットのテキスト ロジット損失を適用することで、平均で文字誤り率 (CER) については -32.64%、単語誤り率 (WER) については -28.03% というビヨンテゴール デルタ (BD) 率を達成しています。
さらに、画像圧縮タスクにおけるテキストの品質を評価するために調整された定量的メトリクスを示します。
私たちの調査結果は、さまざまなテキスト対応画像圧縮コンテキストにわたる、提案したテキスト ロジット損失関数の有効性と潜在的な適用可能性を強調しています。
要約(オリジナル)
Learned image compression has gained widespread popularity for their efficiency in achieving ultra-low bit-rates. Yet, images containing substantial textual content, particularly screen-content images (SCI), often suffers from text distortion at such compressed levels. To address this, we propose to minimize a novel text logit loss designed to quantify the disparity in text between the original and reconstructed images, thereby improving the perceptual quality of the reconstructed text. Through rigorous experimentation across diverse datasets and employing state-of-the-art algorithms, our findings reveal significant enhancements in the quality of reconstructed text upon integration of the proposed loss function with appropriate weighting. Notably, we achieve a Bjontegaard delta (BD) rate of -32.64% for Character Error Rate (CER) and -28.03% for Word Error Rate (WER) on average by applying the text logit loss for two screenshot datasets. Additionally, we present quantitative metrics tailored for evaluating text quality in image compression tasks. Our findings underscore the efficacy and potential applicability of our proposed text logit loss function across various text-aware image compression contexts.
arxiv情報
著者 | Chih-Yu Lai,Dung Tran,Kazuhito Koishida |
発行日 | 2024-02-13 18:20:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google