Duncode Characters Shorter

要約

この論文では、文字をバイトに変換するテキスト変換におけるさまざまなエンコーダの使用について調査します。
ここでは、特定の文字を短いバイトにエンコードする ASCII や GB-2312 などのローカル エンコーダと、より大きなスペース要件で完全な Unicode セットをエンコードでき、広く受け入れられている UTF-8 や UTF-16 などのユニバーサル エンコーダについて説明します。
ただし、SCSU、BOCU-1、バイナリ エンコーダなどの他のエンコーダには自己同期機能がありません。
Duncode は、ローカル エンコーダに似た、スペース効率の高い Unicode 文字セット全体をエンコードすることを目的とした革新的なエンコード方法として導入されました。
より少ないバイト数を使用して、文字列の複数の文字を Duncode 単位に圧縮できる可能性があります。
Duncode は、自己同期する識別情報が少ないにもかかわらず、スペース効率の点で UTF8 を上回っています。
アプリケーションは \url{https://github.com/laohur/duncode} で入手できます。
さらに、さまざまな言語にわたる文字エンコーダーを評価するためのベンチマークを開発しました。
179 の言語が含まれており、\url{https://github.com/laohur/wiki2txt} からアクセスできます。

要約(オリジナル)

This paper investigates the employment of various encoders in text transformation, converting characters into bytes. It discusses local encoders such as ASCII and GB-2312, which encode specific characters into shorter bytes, and universal encoders like UTF-8 and UTF-16, which can encode the complete Unicode set with greater space requirements and are gaining widespread acceptance. Other encoders, including SCSU, BOCU-1, and binary encoders, however, lack self-synchronizing capabilities. Duncode is introduced as an innovative encoding method that aims to encode the entire Unicode character set with high space efficiency, akin to local encoders. It has the potential to compress multiple characters of a string into a Duncode unit using fewer bytes. Despite offering less self-synchronizing identification information, Duncode surpasses UTF8 in terms of space efficiency. The application is available at \url{https://github.com/laohur/duncode}. Additionally, we have developed a benchmark for evaluating character encoders across different languages. It encompasses 179 languages and can be accessed at \url{https://github.com/laohur/wiki2txt}.

arxiv情報

著者 Changshang Xue
発行日 2023-07-11 16:30:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68P20, 68P30, cs.CL, cs.DB, cs.IR, E.2 パーマリンク