要約
双曲空間は、多くの実世界のデータセットの暗黙的または明示的な階層構造のため、データを表現するための一般的な選択肢になりつつあります。
それに伴い、双曲空間で分類などの基本的なタスクを解決できるアルゴリズムの必要性も生じます。
最近、複数の論文で、ロジスティック回帰や SVM など、超平面ベースの分類器に代わる双曲線関数が研究されています。
これらのアプローチは効果的ではありますが、より複雑な階層データを処理するのに苦労します。
したがって、我々は、よく知られているランダム フォレストを双曲空間に一般化することを提案します。
私たちはホロスフィアを使用して分割の概念を再定義することでこれを実現します。
グローバルに最適な分割を見つけることは計算的に困難であるため、マージンの大きい分類器を使用して候補星雲球を見つけます。
双曲ランダム フォレストをマルチクラス データと不均衡な実験で機能させるために、最も低い共通祖先に基づいてクラスを結合する新しい方法と、マージン損失の大きいクラスのバランスの取れたバージョンをさらに概説します。
標準ベンチマークと新しいベンチマークの実験では、私たちのアプローチが従来のランダム フォレスト アルゴリズムと最近の双曲分類器の両方を上回るパフォーマンスを示しています。
要約(オリジナル)
Hyperbolic space is becoming a popular choice for representing data due to the hierarchical structure – whether implicit or explicit – of many real-world datasets. Along with it comes a need for algorithms capable of solving fundamental tasks, such as classification, in hyperbolic space. Recently, multiple papers have investigated hyperbolic alternatives to hyperplane-based classifiers, such as logistic regression and SVMs. While effective, these approaches struggle with more complex hierarchical data. We, therefore, propose to generalize the well-known random forests to hyperbolic space. We do this by redefining the notion of a split using horospheres. Since finding the globally optimal split is computationally intractable, we find candidate horospheres through a large-margin classifier. To make hyperbolic random forests work on multi-class data and imbalanced experiments, we furthermore outline a new method for combining classes based on their lowest common ancestor and a class-balanced version of the large-margin loss. Experiments on standard and new benchmarks show that our approach outperforms both conventional random forest algorithms and recent hyperbolic classifiers.
arxiv情報
著者 | Lars Doorenbos,Pablo Márquez-Neila,Raphael Sznitman,Pascal Mettes |
発行日 | 2023-08-25 10:01:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google