要約
報告された実験結果の検証を通じて人工知能の再現性の危機に対処することは、困難な課題です。
そのためには、技術を再実装するか、科学的手法や最良の統計手法からの逸脱がないか論文を注意深く評価する必要があります。
報告された結果の検証を容易にするために、報告されたパフォーマンス スコアと、バイナリ/マルチクラス分類および回帰を含む機械学習問題におけるさまざまな実験設定との間の不一致を特定できる数値手法を開発しました。
これらの一貫性テストはオープンソース パッケージ mlscorecheck に統合されており、網膜画像処理や合成マイノリティ オーバーサンプリングなど、さまざまな分野で体系的に繰り返される欠陥を検出するように設計された特定のテスト バンドルも提供されます。
要約(オリジナル)
Addressing the reproducibility crisis in artificial intelligence through the validation of reported experimental results is a challenging task. It necessitates either the reimplementation of techniques or a meticulous assessment of papers for deviations from the scientific method and best statistical practices. To facilitate the validation of reported results, we have developed numerical techniques capable of identifying inconsistencies between reported performance scores and various experimental setups in machine learning problems, including binary/multiclass classification and regression. These consistency tests are integrated into the open-source package mlscorecheck, which also provides specific test bundles designed to detect systematically recurring flaws in various fields, such as retina image processing and synthetic minority oversampling.
arxiv情報
著者 | György Kovács,Attila Fazekas |
発行日 | 2023-11-13 18:31:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google