要約
KNNに基づくテキスト分類(‘gzip’)における圧縮距離の有効性が最近注目されている。このノートでは、より単純な手段でも効果的であり、圧縮は必要ないかもしれないことを示す。実際、’bag-of-words’マッチングは同等以上の結果を得ることができ、より効率的である。
要約(オリジナル)
The effectiveness of compression distance in KNN-based text classification (‘gzip’) has recently garnered lots of attention. In this note we show that simpler means can also be effective, and compression may not be needed. Indeed, a ‘bag-of-words’ matching can achieve similar or better results, and is more efficient.
arxiv情報
著者 | Juri Opitz |
発行日 | 2023-08-03 09:34:34+00:00 |
arxivサイト | arxiv_id(pdf) |