Gzip versus bag-of-words for text classification with KNN

要約

KNNに基づくテキスト分類(‘gzip’)における圧縮距離の有効性が最近注目されている。このノートでは、より単純な手段でも効果的であり、圧縮は必要ないかもしれないことを示す。実際、’bag-of-words’マッチングは同等以上の結果を得ることができ、より効率的である。

要約(オリジナル)

The effectiveness of compression distance in KNN-based text classification (‘gzip’) has recently garnered lots of attention. In this note we show that simpler means can also be effective, and compression may not be needed. Indeed, a ‘bag-of-words’ matching can achieve similar or better results, and is more efficient.

arxiv情報

著者 Juri Opitz
発行日 2023-08-03 09:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク