要約
通常、機械学習モデルは、ユーザー間を区別せずにトレーニングおよび評価されます (たとえば、従来のホールドアウトや相互検証を使用)。
ただし、これにより、マルチユーザー設定では不正確なパフォーマンス メトリクスの推定が生成されます。
つまり、異なる特性 (年齢、性別、身長など) を持つ複数のユーザーによってデータが収集された状況です。これは、ユーザーのコンピューター操作や医療アプリケーションでは非常に一般的です。
このようなタイプのシナリオでは、混合モデル、ユーザー独立モデル、ユーザー依存モデル、およびユーザー適応モデルなど、より優れたパフォーマンス推定を提供するモデル評価戦略が提案されています。
これらの戦略はマルチユーザー システムに適していますが、通常はモデルの全体的な動作を捕捉するパフォーマンス メトリックに関して評価され、個々の予測に対するパフォーマンスの保証はなく、予測の不確実性に関するフィードバックも提供されません。
これらの制限を克服するために、この研究では、いくつかのマルチユーザー設定で等角予測フレームワークを評価しました。
等角予測は、予測の信頼性を保証するモデルに依存しない手法であり、モデルの信頼性と堅牢性が向上します。
私たちはさまざまな評価戦略を使用して広範な実験を実施し、等角性能測定の点で大きな違いがあることを発見しました。
また、結果として得られる予測セットのさまざまな側面を捉える、行列、グラフ、チャートに基づくいくつかの視覚化も提案しました。
要約(オリジナル)
Typically, machine learning models are trained and evaluated without making any distinction between users (e.g, using traditional hold-out and cross-validation). However, this produces inaccurate performance metrics estimates in multi-user settings. That is, situations where the data were collected by multiple users with different characteristics (e.g., age, gender, height, etc.) which is very common in user computer interaction and medical applications. For these types of scenarios model evaluation strategies that provide better performance estimates have been proposed such as mixed, user-independent, user-dependent, and user-adaptive models. Although those strategies are better suited for multi-user systems, they are typically assessed with respect to performance metrics that capture the overall behavior of the models and do not provide any performance guarantees for individual predictions nor they provide any feedback about the predictions’ uncertainty. In order to overcome those limitations, in this work we evaluated the conformal prediction framework in several multi-user settings. Conformal prediction is a model agnostic method that provides confidence guarantees on the predictions, thus, increasing the trustworthiness and robustness of the models. We conducted extensive experiments using different evaluation strategies and found significant differences in terms of conformal performance measures. We also proposed several visualizations based on matrices, graphs, and charts that capture different aspects of the resulting prediction sets.
arxiv情報
著者 | Enrique Garcia-Ceja,Luciano Garcia-Banuelos,Nicolas Jourdan |
発行日 | 2023-12-08 17:33:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google