Understanding Concept Identification as Consistent Data Clustering Across Multiple Feature Spaces

要約

大規模なデータセットから意味のある概念を特定すると、エンジニアリング設計の問題について貴重な洞察が得られます。
コンセプトの特定は、すべてのフィーチャの結合空間では類似しているが、フィーチャのサブセットのみを考慮した場合にも同様である、重複しない設計インスタンスのグループを識別することを目的としています。
これらのサブセットは通常、構造的な設計パラメータ、性能値、動作モードなど、1 つの特定のコンテキストに関して設計を特徴付ける機能で構成されます。
これらの機能サブセットのいくつかを個別に考慮して、設計コンセプトの品質を評価することが望ましいです。
特に、意味のある概念は、高密度で十分に分離されたデータ インスタンスのグループを特定するだけでなく、事前定義された特徴サブセットを個別に考慮した場合に持続する、重複しないデータ グループを提供する必要があります。
この研究では、概念の同定を、工学設計を超えた広範囲の潜在的なアプリケーションを備えた特別な形式のクラスタリング アルゴリズムとして見ることを提案します。
概念識別アルゴリズムと古典的なクラスタリング アルゴリズムの違いを説明するために、最近提案された概念識別アルゴリズムを 2 つの合成データ セットに適用し、識別されたソリューションの違いを示します。
さらに、ソリューションが関連するサブセット全体で一貫したクラスターを返すかどうかを評価するメトリックとして相互情報量測定を導入します。
概念識別の新たな理解をサポートするために、エネルギー管理ドメインにおける意思決定問題からシミュレートされたデータセットを検討し、識別されたクラスターが、一般的なクラスタリング アルゴリズムによって検出されたクラスターよりも、関連する特徴サブセットに関してより解釈可能であることを示します。
したがって、意思決定者をサポートするのに適しています。

要約(オリジナル)

Identifying meaningful concepts in large data sets can provide valuable insights into engineering design problems. Concept identification aims at identifying non-overlapping groups of design instances that are similar in a joint space of all features, but which are also similar when considering only subsets of features. These subsets usually comprise features that characterize a design with respect to one specific context, for example, constructive design parameters, performance values, or operation modes. It is desirable to evaluate the quality of design concepts by considering several of these feature subsets in isolation. In particular, meaningful concepts should not only identify dense, well separated groups of data instances, but also provide non-overlapping groups of data that persist when considering pre-defined feature subsets separately. In this work, we propose to view concept identification as a special form of clustering algorithm with a broad range of potential applications beyond engineering design. To illustrate the differences between concept identification and classical clustering algorithms, we apply a recently proposed concept identification algorithm to two synthetic data sets and show the differences in identified solutions. In addition, we introduce the mutual information measure as a metric to evaluate whether solutions return consistent clusters across relevant subsets. To support the novel understanding of concept identification, we consider a simulated data set from a decision-making problem in the energy management domain and show that the identified clusters are more interpretable with respect to relevant feature subsets than clusters found by common clustering algorithms and are thus more suitable to support a decision maker.

arxiv情報

著者 Felix Lanfermann,Sebastian Schmitt,Patricia Wollstadt
発行日 2023-11-14 13:29:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク