要約
現在、さまざまな分野の研究において、結果の再現性が課題となっています。
この問題は、機械学習 (ML) 研究でもよく見られます。
この問題は、たとえば、未公開のデータやソース コード、ML トレーニング条件の機密性などが原因で発生します。
この問題に対処するために、ML プラットフォームの使用など、さまざまなソリューションが提案されていますが、ML 主導の研究における再現性のレベルは依然として満足のいくものではありません。
したがって、この記事では、次の 3 つの主な目的で ML 主導の研究の再現性について説明します。 (i) 研究に ML を適用する際の再現性に対する障壁を特定し、さまざまな種類の再現性 (説明、コード、データ) に対する障壁を分類する
(ii) ML の再現性をサポートするツール、実践、介入などの潜在的な推進要因について議論し、テクノロジー主導の推進要因、手続き上の推進要因、意識と教育に関連する推進要因を区別する、(iii)
ドライバーをバリアにマッピングします。
この取り組みにより、私たちは洞察を提供し、ML の再現性をサポートするさまざまなソリューションの採用に関する意思決定プロセスに貢献したいと考えています。
要約(オリジナル)
Research in various fields is currently experiencing challenges regarding the reproducibility of results. This problem is also prevalent in machine learning (ML) research. The issue arises, for example, due to unpublished data and/or source code and the sensitivity of ML training conditions. Although different solutions have been proposed to address this issue, such as using ML platforms, the level of reproducibility in ML-driven research remains unsatisfactory. Therefore, in this article, we discuss the reproducibility of ML-driven research with three main aims: (i) identifying the barriers to reproducibility when applying ML in research as well as categorize the barriers to different types of reproducibility (description, code, data, and experiment reproducibility), (ii) discussing potential drivers such as tools, practices, and interventions that support ML reproducibility, as well as distinguish between technology-driven drivers, procedural drivers, and drivers related to awareness and education, and (iii) mapping the drivers to the barriers. With this work, we hope to provide insights and to contribute to the decision-making process regarding the adoption of different solutions to support ML reproducibility.
arxiv情報
著者 | Harald Semmelrock,Tony Ross-Hellauer,Simone Kopeinik,Dieter Theiler,Armin Haberl,Stefan Thalmann,Dominik Kowald |
発行日 | 2024-07-02 15:36:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google