Cluster Exploration using Informative Manifold Projections

要約

次元削減 (DR) は、高次元データを視覚的に探索し、2 次元または 3 次元空間でそのクラスター構造を明らかにするための重要なツールの 1 つです。
文献にある DR 手法の大部分は、検討中のデータセットに関して実践者が持つ可能性のある事前知識をまったく考慮していません。
我々は、さまざまな種類の事前知識に関連する構造を除外するだけでなく、残りの基礎的な構造を明らかにすることを目的とした、有益な埋め込みを生成するための新しい方法を提案します。
これを達成するために、我々は 2 つの目的の線形結合を採用します。1 つ目は、事前情報に関連する構造を無視する対比 PCA、2 つ目は、取得された埋め込みで意味のあるデータ分離を保証する尖度投影追跡です。
私たちはこのタスクを多様体最適化問題として定式化し、3 つの異なるタイプの事前知識を考慮して、さまざまなデータセットにわたって経験的に検証します。
最後に、高次元データの反復的な視覚的探索を実行するための自動化されたフレームワークを提供します。

要約(オリジナル)

Dimensionality reduction (DR) is one of the key tools for the visual exploration of high-dimensional data and uncovering its cluster structure in two- or three-dimensional spaces. The vast majority of DR methods in the literature do not take into account any prior knowledge a practitioner may have regarding the dataset under consideration. We propose a novel method to generate informative embeddings which not only factor out the structure associated with different kinds of prior knowledge but also aim to reveal any remaining underlying structure. To achieve this, we employ a linear combination of two objectives: firstly, contrastive PCA that discounts the structure associated with the prior information, and secondly, kurtosis projection pursuit which ensures meaningful data separation in the obtained embeddings. We formulate this task as a manifold optimization problem and validate it empirically across a variety of datasets considering three distinct types of prior knowledge. Lastly, we provide an automated framework to perform iterative visual exploration of high-dimensional data.

arxiv情報

著者 Stavros Gerolymatos,Xenophon Evangelopoulos,Vladimir Gusev,John Y. Goulermas
発行日 2024-08-05 11:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG パーマリンク