要約
クラスタリングは、機械学習とデータマイニングの両方における基本的なタスクです。
さまざまな方法の中で、エッジ色のクラスタリング(ECC)は、カテゴリデータを処理するための有用なアプローチとして浮上しています。
色でラベル付けされた(ハイパー)エッジを備えたハイパーグラフを考えると、ECCは頂点の色がエッジの色と異なるエッジの数を最小限に抑えるために頂点の色を割り当てることを目指しています。
ただし、従来のECCには固有の制限があります。これは、非重複した網羅的なクラスタリングを実施するためです。
これらの制限に取り組むために、ECCの3つのバージョンが研究されています。ローカルECCとクラスターの重複を可能にするグローバルECCと、頂点の外れ値を説明する堅牢なECCです。
これらの問題については、線形プログラミング(LP)の丸めアルゴリズムと貪欲な組み合わせアルゴリズムの両方が提案されています。
これらのLPラウンティングアルゴリズムは高品質のソリューションを提供しますが、かなりの計算時間を要求します。
一方、貪欲なアルゴリズムは非常に速く実行されますが、多くの場合、ソリューションの品質を妥協します。
この論文では、LPの強度と組み合わせアルゴリズムの計算効率を組み合わせたアルゴリズムフレームワークを提示します。
実験的分析と理論分析の両方が、アルゴリズムが3つの問題すべて、ローカル、グローバル、堅牢なECCの高品質のソリューションを効率的に生成することを示しています。
複雑さの理論的不可逆性の結果と積分ギャップバウンドでアルゴリズムの貢献を補完します。これは、重要な理論的改善がありそうにないことを示唆しています。
また、私たちの結果は、以前に文献で提起された2つの未解決の質問にも答えています。
要約(オリジナル)
Clustering is a fundamental task in both machine learning and data mining. Among various methods, edge-colored clustering (ECC) has emerged as a useful approach for handling categorical data. Given a hypergraph with (hyper)edges labeled by colors, ECC aims to assign vertex colors to minimize the number of edges where the vertex color differs from the edge’s color. However, traditional ECC has inherent limitations, as it enforces a nonoverlapping and exhaustive clustering. To tackle these limitations, three versions of ECC have been studied: Local ECC and Global ECC, which allow overlapping clusters, and Robust ECC, which accounts for vertex outliers. For these problems, both linear programming (LP) rounding algorithms and greedy combinatorial algorithms have been proposed. While these LP-rounding algorithms provide high-quality solutions, they demand substantial computation time; the greedy algorithms, on the other hand, run very fast but often compromise solution quality. In this paper, we present an algorithmic framework that combines the strengths of LP with the computational efficiency of combinatorial algorithms. Both experimental and theoretical analyses show that our algorithms efficiently produce high-quality solutions for all three problems: Local, Global, and Robust ECC. We complement our algorithmic contributions with complexity-theoretic inapproximability results and integrality gap bounds, which suggest that significant theoretical improvements are unlikely. Our results also answer two open questions previously raised in the literature.
arxiv情報
著者 | Changyeol Lee,Yongho Shin,Hyung-Chan An |
発行日 | 2025-05-23 15:46:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google