Universal Feature Selection for Simultaneous Interpretability of Multitask Datasets

要約

科学分野にわたる複雑な高次元データセットから意味のある特徴を抽出することは依然として困難です。
現在の手法は、多くの場合、スケーラビリティに問題があり、大規模なデータセットへの適用が制限されたり、特徴とプロパティの関係について限定的な仮定を行ったりして、複雑な相互作用を捕捉する能力が妨げられています。
BoUTS の一般的でスケーラブルな特徴選択アルゴリズムは、これらの制限を超えて、すべてのデータセットに関連する普遍的な特徴と、特定のサブセットを予測するタスク固有の特徴の両方を識別します。
7 つの多様な化学回帰データセットで評価された BoUTS は、特殊な手法に匹敵する予測精度を維持しながら、最先端の特徴のスパース性を実現します。
特に、BoUTS の汎用機能により、データセット間でのドメイン固有の知識の伝達が可能になり、一見異質な化学データセット間の深いつながりが示唆されます。
これらの結果は、手動で誘導される逆問題に重要な影響を与えることが期待されます。
BoUTS は、現在のアプリケーションを超えて、同様のデータが豊富なシステムからの情報を活用することで、データが乏しいシステムを解明できる計り知れない可能性を秘めています。
BoUTS は、クロスドメインの特徴選択における大幅な飛躍を表しており、さまざまな科学分野の進歩につながる可能性があります。

要約(オリジナル)

Extracting meaningful features from complex, high-dimensional datasets across scientific domains remains challenging. Current methods often struggle with scalability, limiting their applicability to large datasets, or make restrictive assumptions about feature-property relationships, hindering their ability to capture complex interactions. BoUTS’s general and scalable feature selection algorithm surpasses these limitations to identify both universal features relevant to all datasets and task-specific features predictive for specific subsets. Evaluated on seven diverse chemical regression datasets, BoUTS achieves state-of-the-art feature sparsity while maintaining prediction accuracy comparable to specialized methods. Notably, BoUTS’s universal features enable domain-specific knowledge transfer between datasets, and suggest deep connections in seemingly-disparate chemical datasets. We expect these results to have important repercussions in manually-guided inverse problems. Beyond its current application, BoUTS holds immense potential for elucidating data-poor systems by leveraging information from similar data-rich systems. BoUTS represents a significant leap in cross-domain feature selection, potentially leading to advancements in various scientific fields.

arxiv情報

著者 Matt Raymond,Jacob Charles Saldinger,Paolo Elvati,Clayton Scott,Angela Violi
発行日 2024-03-21 15:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク