Semantic Text Compression for Classification

要約

私たちは、テキストに含まれる意味が分類などのためにソース デコーダに伝達される、テキストの意味圧縮を研究しています。
正確な再構築を必要とせずに意味を回復するこのようなアプローチに移行する主な動機は、ストレージと別のノードへの情報の伝達の両方における潜在的なリソースの節約です。
この目的に向けて、私たちは文の埋め込みと意味の歪みメトリックを利用して意味を保持する、テキストの意味量子化と圧縮のアプローチを提案します。
私たちの結果は、提案されたセマンティックアプローチが、セマンティックに依存しないベースラインと比較して非常にわずかな精度損失を犠牲にして、メッセージ表現に必要なビット数を大幅に(桁違いに)節約することを示しています。
提案されたアプローチの結果を比較し、意味論的な量子化によって可能になるリソースの節約が、意味論的なクラスタリングによってさらに拡大できることを観察しました。
重要なのは、多様なコンテキストを持つ多くのベンチマーク テキスト分類データセットで優れた結果を生み出す、提案された方法論の一般化可能性を観察したことです。

要約(オリジナル)

We study semantic compression for text where meanings contained in the text are conveyed to a source decoder, e.g., for classification. The main motivator to move to such an approach of recovering the meaning without requiring exact reconstruction is the potential resource savings, both in storage and in conveying the information to another node. Towards this end, we propose semantic quantization and compression approaches for text where we utilize sentence embeddings and the semantic distortion metric to preserve the meaning. Our results demonstrate that the proposed semantic approaches result in substantial (orders of magnitude) savings in the required number of bits for message representation at the expense of very modest accuracy loss compared to the semantic agnostic baseline. We compare the results of proposed approaches and observe that resource savings enabled by semantic quantization can be further amplified by semantic clustering. Importantly, we observe the generalizability of the proposed methodology which produces excellent results on many benchmark text classification datasets with a diverse array of contexts.

arxiv情報

著者 Emrecan Kutay,Aylin Yener
発行日 2023-09-19 17:50:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, math.IT パーマリンク