要約
機械学習研究における経験的証拠の複製と再現性の難しさは、近年顕著なトピックとなっています。
機械学習の研究結果が健全で信頼できるものであることを保証するには、同じコードとデータを使用して研究結果の信頼性を検証する再現性が必要です。
これにより、オープンでアクセス可能な研究、堅牢な実験ワークフロー、新しい発見の迅速な統合が促進されます。
研究出版物が再現性のこれらのさまざまな側面をどの程度サポートしているかを評価することが、現在の研究の目標の 1 つです。
このために、機械学習における再現性のオントロジーを導入し、それをグラフ ニューラル ネットワークの手法に適用します。
これらの取り組みに基づいて、私たちは機械学習におけるもう 1 つの重要な課題、つまり次元の呪いに目を向けます。次元の呪いは、データの収集、表現、分析に課題をもたらし、代表的なデータを見つけることが困難になり、トレーニングと推論のプロセスが妨げられます。
密接に関連した幾何学的固有次元の概念を使用して、使用される機械学習モデルが、トレーニングに使用されるデータセットの固有次元によってどの程度影響を受けるかを調査します。
要約(オリジナル)
Difficulties in replication and reproducibility of empirical evidences in machine learning research have become a prominent topic in recent years. Ensuring that machine learning research results are sound and reliable requires reproducibility, which verifies the reliability of research findings using the same code and data. This promotes open and accessible research, robust experimental workflows, and the rapid integration of new findings. Evaluating the degree to which research publications support these different aspects of reproducibility is one goal of the present work. For this we introduce an ontology of reproducibility in machine learning and apply it to methods for graph neural networks. Building on these efforts we turn towards another critical challenge in machine learning, namely the curse of dimensionality, which poses challenges in data collection, representation, and analysis, making it harder to find representative data and impeding the training and inference processes. Using the closely linked concept of geometric intrinsic dimension we investigate to which extend the used machine learning models are influenced by the intrinsic dimension of the data sets they are trained on.
arxiv情報
著者 | Tobias Hille,Maximilian Stubbemann,Tom Hanika |
発行日 | 2024-03-13 11:44:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google