Metrics for Inter-Dataset Similarity with Example Applications in Synthetic Data and Feature Selection Evaluation — Extended Version

要約

データセット間の類似性を測定することは、さまざまなユースケースやアプリケーションにおける機械学習やデータマイニングにおいて重要なタスクです。
データセット間の類似性を測定するための既存の方法は、計算コストが高く、制限されているか、さまざまなエンティティやパラメータの重要な選択の影響を受けやすいです。
また、データセット全体に対する総合的な視点も欠如しています。
この論文では、データセット間の類似性を測定するための 2 つの新しい指標を提案します。
私たちが提案する指標の数学的基礎と理論的基礎について説明します。
合成データの評価と特徴選択方法の評価における 2 つのアプリケーションを調査することにより、提案されたメトリクスの有効性を実証します。
この論文で実施された理論的および実証的研究は、提案された指標の有効性を示しています。

要約(オリジナル)

Measuring inter-dataset similarity is an important task in machine learning and data mining with various use cases and applications. Existing methods for measuring inter-dataset similarity are computationally expensive, limited, or sensitive to different entities and non-trivial choices for parameters. They also lack a holistic perspective on the entire dataset. In this paper, we propose two novel metrics for measuring inter-dataset similarity. We discuss the mathematical foundation and the theoretical basis of our proposed metrics. We demonstrate the effectiveness of the proposed metrics by investigating two applications in the evaluation of synthetic data and in the evaluation of feature selection methods. The theoretical and empirical studies conducted in this paper illustrate the effectiveness of the proposed metrics.

arxiv情報

著者 Muhammad Rajabinasab,Anton D. Lautrup,Arthur Zimek
発行日 2025-01-16 15:17:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク