Classifying token frequencies using angular Minkowski $p$-distance

要約

角度ミンコフスキー $p$-距離は、コサイン相違度の定義におけるユークリッド距離を他のミンコフスキー $p$-距離に置き換えることによって得られる相違度の尺度です。
コサイン相違度は、トークン頻度を含むデータセットで頻繁に使用され、角度ミンコフスキー $p$-距離は、特定のタスクではさらに良い選択肢になる可能性があります。
20 のニュースグループ データセットに基づくケース スタディでは、古典的な重み付き最近傍とファジーな大まかな最近傍の分類パフォーマンスを評価します。
さらに、ハイパーパラメータ $p$、データセットの次元 $m$、近傍数 $k$、重みの選択、および分類器の選択の間の関係を分析します。
$p$ に適切な値を設定した角度ミンコフスキー $p$ 距離を使用すると、古典的なコサイン相違度よりも大幅に高い分類パフォーマンスを得ることが可能であると結論付けます。

要約(オリジナル)

Angular Minkowski $p$-distance is a dissimilarity measure that is obtained by replacing Euclidean distance in the definition of cosine dissimilarity with other Minkowski $p$-distances. Cosine dissimilarity is frequently used with datasets containing token frequencies, and angular Minkowski $p$-distance may potentially be an even better choice for certain tasks. In a case study based on the 20-newsgroups dataset, we evaluate clasification performance for classical weighted nearest neighbours, as well as fuzzy rough nearest neighbours. In addition, we analyse the relationship between the hyperparameter $p$, the dimensionality $m$ of the dataset, the number of neighbours $k$, the choice of weights and the choice of classifier. We conclude that it is possible to obtain substantially higher classification performance with angular Minkowski $p$-distance with suitable values for $p$ than with classical cosine dissimilarity.

arxiv情報

著者 Oliver Urs Lenz,Chris Cornelis
発行日 2023-09-25 19:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク