要約
多くの組織が、機械学習(ML)や人工知能(AI)システムが本番で意図した通りに動作することを確認しようとしていますが、現状ではそのためのまとまった方法論が確立されていません。このギャップを埋めるために、我々はMLモデルやシステムを評価するためのフレームワークと実装であるMLTE(Machine Learning Test and Evaluation、口語では「メルト」)を提案する。このフレームワークは、最先端の評価技術を、モデル開発者、ソフトウェアエンジニア、システムオーナー、その他のステークホルダーを含む学際的なチームのための組織的プロセスにまとめたものである。MLTEツールは、チームがモデル要件を表現するために使用できるドメイン固有の言語、ML評価メトリクスを定義、生成、収集するためのインフラストラクチャ、および結果を伝達する手段を提供することによって、このプロセスをサポートします。
要約(オリジナル)
Many organizations seek to ensure that machine learning (ML) and artificial intelligence (AI) systems work as intended in production but currently do not have a cohesive methodology in place to do so. To fill this gap, we propose MLTE (Machine Learning Test and Evaluation, colloquially referred to as ‘melt’), a framework and implementation to evaluate ML models and systems. The framework compiles state-of-the-art evaluation techniques into an organizational process for interdisciplinary teams, including model developers, software engineers, system owners, and other stakeholders. MLTE tooling supports this process by providing a domain-specific language that teams can use to express model requirements, an infrastructure to define, generate, and collect ML evaluation metrics, and the means to communicate results.
arxiv情報
著者 | Katherine R. Maffey,Kyle Dotterrer,Jennifer Niemann,Iain Cruickshank,Grace A. Lewis,Christian Kästner |
発行日 | 2023-03-03 15:10:38+00:00 |
arxivサイト | arxiv_id(pdf) |