A distance for mixed-variable and hierarchical domains with meta variables

要約

異なる機械学習および最適化アプリケーションには、さまざまな入力ソース、種類、または形式を備えた異種のデータセットが現れます。
ほとんどのモデルまたは方法は、不均一性にネイティブに取り組んでいません。
したがって、このようなデータセットは、特にデータが制限されている場合、一般化やパフォーマンスを制限する可能性のある、より小さくより単純なデータセットに分割されることがよくあります。
この作業の最初の主な貢献は、階層的、樹木構造、可変サイズ、または条件付き検索フレームワークを一般化するモデリングフレームワークです。
フレームワークは、変数が連続的、整数、またはカテゴリー的である可能性のある混合変数および階層ドメインをモデル化し、問題の構造に影響を与えるときにメタとして識別されます。
2番目の主な貢献は、同じ変数を共有しない混合変数ポイントのペアを比較する新しい距離であり、混合変数および階層ドメインに存在する不均一なデータセット全体をメタ変数を使用することができます。
貢献は、対応するパフォーマンススコアを持つハイパーパラメーターのデータセットに適用される単純な距離ベースのモデルを使用して、回帰および分類実験を通じて示されています。

要約(オリジナル)

Heterogeneous datasets emerge in various machine learning and optimization applications that feature different input sources, types or formats. Most models or methods do not natively tackle heterogeneity. Hence, such datasets are often partitioned into smaller and simpler ones, which may limit the generalizability or performance, especially when data is limited. The first main contribution of this work is a modeling framework that generalizes hierarchical, tree-structured, variable-size or conditional search frameworks. The framework models mixed-variable and hierarchical domains in which variables may be continuous, integer, or categorical, with some identified as meta when they influence the structure of the problem. The second main contribution is a novel distance that compares any pair of mixed-variable points that do not share the same variables, allowing to use whole heterogeneous datasets that reside in mixed-variable and hierarchical domains with meta variables. The contributions are illustrated through regression and classification experiments using simple distance-based models applied to datasets of hyperparameters with corresponding performance scores.

arxiv情報

著者 Edward Hallé-Hannan,Charles Audet,Youssef Diouane,Sébastien Le Digabel,Paul Saves
発行日 2025-03-31 15:41:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62-XX, 90-xx, cs.LG, stat.ML パーマリンク