Crossword: A Semantic Approach to Data Compression via Masking

要約

【タイトル】:マスキングを用いたデータ圧縮の意味論的アプローチ:Crossword
【要約】:
– 従来のデータ圧縮方法は、記号レベルの統計に基づくものが一般的である。情報源はi.i.d.ランダム変数の長いシーケンスや確率過程としてモデル化され、損失のない圧縮の場合の基本的な制限をエントロピー、損失のある圧縮の場合の基本的な制限を相互情報量として設定している。
– しかしながら、実際の世界における情報源(テキスト、音楽、音声を含む)は、人間の知覚と密接に関連しているため、統計的に定義されにくく、モデル駆動型アプローチは非常に効率が悪くなる場合がある。
– この研究は英語テキストに注目し、その意味論的側面を利用して圧縮効率を高めることに重点を置いている。メインアイデアは、パズルクロスワードに由来し、いくつかの重要な文字が与えられる限り、隠された単語を正確に復元できることに着目したものである。
– 提案されたマスキングベースの戦略は、上記のゲームに似ている。要するに、エンコーダーは、各単語の意味的重要性を意味損失に基づいて評価し、小さいものをマスクし、一方、デコーダーはTransformerを用いて意味的文脈からマスクされた単語を回復することを目指す。
– 実験では、提案された意味論的アプローチが、ハフマン符号やUTF-8符号などの従来の方法よりも高い圧縮効率を達成し、同時に対象テキストの意味を大きく損ねることなく保持することができることが示された。

要約(オリジナル)

The traditional methods for data compression are typically based on the symbol-level statistics, with the information source modeled as a long sequence of i.i.d. random variables or a stochastic process, thus establishing the fundamental limit as entropy for lossless compression and as mutual information for lossy compression. However, the source (including text, music, and speech) in the real world is often statistically ill-defined because of its close connection to human perception, and thus the model-driven approach can be quite suboptimal. This study places careful emphasis on English text and exploits its semantic aspect to enhance the compression efficiency further. The main idea stems from the puzzle crossword, observing that the hidden words can still be precisely reconstructed so long as some key letters are provided. The proposed masking-based strategy resembles the above game. In a nutshell, the encoder evaluates the semantic importance of each word according to the semantic loss and then masks the minor ones, while the decoder aims to recover the masked words from the semantic context by means of the Transformer. Our experiments show that the proposed semantic approach can achieve much higher compression efficiency than the traditional methods such as Huffman code and UTF-8 code, while preserving the meaning in the target text to a great extent.

arxiv情報

著者 Mingxiao Li,Rui Jin,Liyao Xiang,Kaiming Shen,Shuguang Cui
発行日 2023-04-03 16:04:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IT, math.IT パーマリンク