要約
KNN ベースのテキスト分類 (「gzip」) における圧縮距離の有効性は、最近多くの注目を集めています。
このノートでは、より単純な手段も効果的であり、圧縮が必要ない場合があることを示します。
実際、「バッグオブワード」マッチングは、同様またはより良い結果を達成することができ、より効率的です。
要約(オリジナル)
The effectiveness of compression distance in KNN-based text classification (‘gzip’) has recently garnered lots of attention. In this note we show that simpler means can also be effective, and compression may not be needed. Indeed, a ‘bag-of-words’ matching can achieve similar or better results, and is more efficient.
arxiv情報
著者 | Juri Opitz |
発行日 | 2023-08-01 10:10:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google