Test & Evaluation Best Practices for Machine Learning-Enabled Systems

要約

機械学習 (ML) ベースのソフトウェア システムは、さまざまな分野で急速に採用が進んでおり、意図したとおりに動作することを保証することがますます重要になっています。
このレポートは、ML 対応ソフトウェア システムのライフサイクル全体にわたるテストと評価 (T&E) のベスト プラクティスを示します。
私たちは、ML 対応ソフトウェア システムのライフサイクルを、コンポーネント、統合と展開、展開後の 3 つの段階に分類します。
コンポーネント レベルでの主な目的は、ML モデルをスタンドアロン コンポーネントとしてテストして評価することです。
次に、統合と展開の段階では、ML コンポーネントと非 ML コンポーネントの両方で構成される統合された ML 対応システムを評価することが目標となります。
最後に、ML 対応ソフトウェア システムが展開され、運用可能になったら、T&E の目標は、システムが意図したとおりに動作することを確認することです。
ML 対応ソフトウェア システムのメンテナンス活動はライフサイクル全体にわたり、ML 対応ソフトウェア システムのさまざまな資産のメンテナンスが含まれます。
その独特の特性を考慮すると、ML 対応ソフトウェア システムの T&E は困難です。
コンポーネントレベルでの T&E に関する重要な研究が報告されていますが、残りの 2 つの段階での T&E に関する研究は限られています。
さらに、多くの場合、ML 対応システムのライフサイクル全体を通じて体系的な T&E 戦略が欠如しています。
このため、実務者はその場限りの T&E 手法に頼ることになり、ML 対応ソフトウェア システムの信頼性に対するユーザーの信頼が損なわれる可能性があります。
ML 対応システムのライフサイクルのすべての段階にわたる T&E の課題に対処するには、新しい体系的なテスト アプローチ、適切性の測定、および指標が必要です。

要約(オリジナル)

Machine learning (ML) – based software systems are rapidly gaining adoption across various domains, making it increasingly essential to ensure they perform as intended. This report presents best practices for the Test and Evaluation (T&E) of ML-enabled software systems across its lifecycle. We categorize the lifecycle of ML-enabled software systems into three stages: component, integration and deployment, and post-deployment. At the component level, the primary objective is to test and evaluate the ML model as a standalone component. Next, in the integration and deployment stage, the goal is to evaluate an integrated ML-enabled system consisting of both ML and non-ML components. Finally, once the ML-enabled software system is deployed and operationalized, the T&E objective is to ensure the system performs as intended. Maintenance activities for ML-enabled software systems span the lifecycle and involve maintaining various assets of ML-enabled software systems. Given its unique characteristics, the T&E of ML-enabled software systems is challenging. While significant research has been reported on T&E at the component level, limited work is reported on T&E in the remaining two stages. Furthermore, in many cases, there is a lack of systematic T&E strategies throughout the ML-enabled system’s lifecycle. This leads practitioners to resort to ad-hoc T&E practices, which can undermine user confidence in the reliability of ML-enabled software systems. New systematic testing approaches, adequacy measurements, and metrics are required to address the T&E challenges across all stages of the ML-enabled system lifecycle.

arxiv情報

著者 Jaganmohan Chandrasekaran,Tyler Cody,Nicola McCarthy,Erin Lanus,Laura Freeman
発行日 2023-10-10 17:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク