要約
機械学習モデルのパフォーマンスは、入力データの品質に大きく依存していますが、実際のアプリケーションは多くの場合、重要なデータ関連の課題に直面しています。
トレーニングデータをキュレートしたりモデルを展開したりする場合、一般的な問題が発生します。同じドメインからの2つのデータセットが異なる分布を示す場合があります。
このような分布シフトを検出するための多くの手法は存在しますが、不透明な定量的メトリックを超えて人間に理解できる方法でこれらの違いを説明する包括的な方法が不足しています。
このギャップを埋めるために、データセットを比較するための解釈可能な方法の汎用性の高いツールボックスを提案します。
さまざまなケーススタディを使用して、低次元と高次元設定の両方で、表形式データ、テキストデータ、画像、時系列信号など、多様なデータモダリティを介したアプローチの有効性を実証します。
これらの方法は、分布の変化をよりよく理解し、対処するための実用的で解釈可能な洞察を提供することにより、既存の手法を補完します。
要約(オリジナル)
The performance of machine learning models relies heavily on the quality of input data, yet real-world applications often face significant data-related challenges. A common issue arises when curating training data or deploying models: two datasets from the same domain may exhibit differing distributions. While many techniques exist for detecting such distribution shifts, there is a lack of comprehensive methods to explain these differences in a human-understandable way beyond opaque quantitative metrics. To bridge this gap, we propose a versatile toolbox of interpretable methods for comparing datasets. Using a variety of case studies, we demonstrate the effectiveness of our approach across diverse data modalities — including tabular data, text data, images, time series signals — in both low and high-dimensional settings. These methods complement existing techniques by providing actionable and interpretable insights to better understand and address distribution shifts.
arxiv情報
著者 | Varun Babbar,Zhicheng Guo,Cynthia Rudin |
発行日 | 2025-01-29 17:10:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google