Problem-oriented AutoML in Clustering

要約

問題指向 AutoML in Clustering (PoAC) フレームワークは、従来の AutoML ソリューションの欠点に対処することで、クラスタリング タスクを自動化するための新しい柔軟なアプローチを導入します。
従来の方法では、事前定義された内部クラスタリング有効性インデックス (CVI) や静的メタ機能に依存することが多く、さまざまなクラスタリング タスクにわたる適応性と有効性が制限されていました。
対照的に、PoAC はクラスタリング問題、CVI、メタ機能間の動的な接続を確立し、ユーザーがタスクの特定のコンテキストと目標に基づいてこれらのコンポーネントをカスタマイズできるようにします。
PoAC はその中核として、以前のクラスタリング データセットとソリューションの大規模なメタ知識ベースに基づいてトレーニングされたサロゲート モデルを採用しており、新しいクラスタリング パイプラインの品質を推測し、未確認のデータセットに最適なソリューションを合成できるようになります。
固定の評価指標やアルゴリズム セットによって制約される多くの AutoML フレームワークとは異なり、PoAC はアルゴリズムに依存せず、追加のデータや再トレーニングを必要とせずに、さまざまなクラスタリング問題にシームレスに適応します。
実験結果は、PoAC がさまざまなデータセットで最先端のフレームワークを上回るパフォーマンスを発揮するだけでなく、データの視覚化などの特定のタスクでも優れていることを示し、データセットの複雑さに基づいてパイプライン構成を動的に調整する機能を強調しています。

要約(オリジナル)

The Problem-oriented AutoML in Clustering (PoAC) framework introduces a novel, flexible approach to automating clustering tasks by addressing the shortcomings of traditional AutoML solutions. Conventional methods often rely on predefined internal Clustering Validity Indexes (CVIs) and static meta-features, limiting their adaptability and effectiveness across diverse clustering tasks. In contrast, PoAC establishes a dynamic connection between the clustering problem, CVIs, and meta-features, allowing users to customize these components based on the specific context and goals of their task. At its core, PoAC employs a surrogate model trained on a large meta-knowledge base of previous clustering datasets and solutions, enabling it to infer the quality of new clustering pipelines and synthesize optimal solutions for unseen datasets. Unlike many AutoML frameworks that are constrained by fixed evaluation metrics and algorithm sets, PoAC is algorithm-agnostic, adapting seamlessly to different clustering problems without requiring additional data or retraining. Experimental results demonstrate that PoAC not only outperforms state-of-the-art frameworks on a variety of datasets but also excels in specific tasks such as data visualization, and highlight its ability to dynamically adjust pipeline configurations based on dataset complexity.

arxiv情報

著者 Matheus Camilo da Silva,Gabriel Marques Tavares,Eric Medvet,Sylvio Barbon Junior
発行日 2024-09-24 16:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク