要約
角度ミンコフスキー $p$-距離は、コサイン相違度の定義におけるユークリッド距離を他のミンコフスキー $p$-距離に置き換えることによって得られる相違度の尺度です。
コサイン相違度は、トークン頻度を含むデータセットで頻繁に使用され、角度ミンコフスキー $p$-距離は、特定のタスクではさらに良い選択肢になる可能性があります。
20 のニュースグループ データセットに基づくケース スタディでは、古典的な重み付き最近傍とファジーな大まかな最近傍の分類パフォーマンスを評価します。
さらに、ハイパーパラメータ $p$、データセットの次元 $m$、近傍数 $k$、重みの選択、および分類器の選択の間の関係を分析します。
$p$ に適切な値を設定した角度ミンコフスキー $p$ 距離を使用すると、古典的なコサイン相違度よりも大幅に高い分類パフォーマンスを得ることが可能であると結論付けます。
要約(オリジナル)
Angular Minkowski $p$-distance is a dissimilarity measure that is obtained by replacing Euclidean distance in the definition of cosine dissimilarity with other Minkowski $p$-distances. Cosine dissimilarity is frequently used with datasets containing token frequencies, and angular Minkowski $p$-distance may potentially be an even better choice for certain tasks. In a case study based on the 20-newsgroups dataset, we evaluate clasification performance for classical weighted nearest neighbours, as well as fuzzy rough nearest neighbours. In addition, we analyse the relationship between the hyperparameter $p$, the dimensionality $m$ of the dataset, the number of neighbours $k$, the choice of weights and the choice of classifier. We conclude that it is possible to obtain substantially higher classification performance with angular Minkowski $p$-distance with suitable values for $p$ than with classical cosine dissimilarity.
arxiv情報
著者 | Oliver Urs Lenz,Chris Cornelis |
発行日 | 2023-09-25 19:45:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google