Gzip versus bag-of-words for text classification with KNN

要約

KNN ベースのテキスト分類 (「gzip」) における圧縮距離の有効性は、最近多くの注目を集めています。
このノートでは、より簡単な手段で同様またはより優れた効果を達成でき、テキスト圧縮が必要ない可能性があることを示します。
実際、単純な「バッグオブワード」マッチングが同等以上の精度を達成でき、より効率的であることがわかりました。

要約(オリジナル)

The effectiveness of compression distance in KNN-based text classification (‘gzip’) has recently garnered lots of attention. In this note, we show that similar or better effectiveness can be achieved with simpler means, and text compression may not be necessary. Indeed, we find that a simple ‘bag-of-words’ matching can achieve similar or better accuracy, and is more efficient.

arxiv情報

著者 Juri Opitz
発行日 2023-07-27 16:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク