要約
データセット内の他のデータ ポイントの線形結合として各データ ポイントを表す自己表現モデルを採用する部分空間クラスタリング手法は、強力な教師なし学習手法を提供します。
ただし、大規模なデータセットを扱う場合、辞書を介してすべてのデータ ポイントを参照して各データ ポイントを表現すると、計算量が多くなります。
この問題を軽減するために、並列化可能なマルチサブセットベースの自己表現モデル (PMS) を導入します。PMS は、それぞれがサンプルのほんの一部で構成される複数のサブセットを組み合わせることによって各データポイントを表します。
部分空間クラスタリング (PMSSC) での PMS の採用は、各サブセットにわたって分解される最適化問題が小さく、並列で効率的に解決できるため、計算上の利点が得られます。
さらに、PMSSC はサブセットから得られた複数の自己表現係数ベクトルを組み合わせることができるため、自己表現力の向上に貢献します。
合成データセットと現実世界のデータセットに関する広範な実験により、他の方法と比較した場合のアプローチの効率と有効性が示されています。
要約(オリジナル)
Subspace clustering methods which embrace a self-expressive model that represents each data point as a linear combination of other data points in the dataset provide powerful unsupervised learning techniques. However, when dealing with large datasets, representation of each data point by referring to all data points via a dictionary suffers from high computational complexity. To alleviate this issue, we introduce a parallelizable multi-subset based self-expressive model (PMS) which represents each data point by combining multiple subsets, with each consisting of only a small proportion of the samples. The adoption of PMS in subspace clustering (PMSSC) leads to computational advantages because the optimization problems decomposed over each subset are small, and can be solved efficiently in parallel. Furthermore, PMSSC is able to combine multiple self-expressive coefficient vectors obtained from subsets, which contributes to an improvement in self-expressiveness. Extensive experiments on synthetic and real-world datasets show the efficiency and effectiveness of our approach in comparison to other methods.
arxiv情報
著者 | Katsuya Hotta,Takuya Akashi,Shogo Tokai,Chao Zhang |
発行日 | 2023-10-05 16:30:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google