Gzip versus bag-of-words for text classification with KNN

要約

KNN ベースのテキスト分類 (「gzip」) における圧縮距離の有効性は、最近多くの注目を集めています。
このノートでは、より単純な手段も効果的であり、圧縮が必要ない場合があることを示します。
実際、「バッグオブワード」マッチングは、同様またはより良い結果を達成することができ、より効率的です。

要約(オリジナル)

The effectiveness of compression distance in KNN-based text classification (‘gzip’) has recently garnered lots of attention. In this note we show that simpler means can also be effective, and compression may not be needed. Indeed, a ‘bag-of-words’ matching can achieve similar or better results, and is more efficient.

arxiv情報

著者 Juri Opitz
発行日 2023-08-01 10:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク