要約
データ品質は、人工知能モデルのトレーニング、一般化、パフォーマンスを成功させるために非常に重要です。
私たちは、トポロジカルデータ分析技術を使用して教師あり学習のデータ品質を測定することを提案します。
具体的には、$0$ 次元の永続的相同性を使用し、包含物によって誘発される永続性マッチングに基づいた新しいトポロジカル不変量を提供します。
このような不変量が安定であることを示します。
私たちはアルゴリズムを提供し、それを誘導射の画像、カーネル、およびコカーネルに関連付けます。
また、不変式により、サブセットがより大きなデータセットのクラスターを「よく表現している」かどうかを理解できることを示し、また、不変式を使用して、サブセットと完全なデータセットの間のハウスドルフ距離の境界を推定します。
このアプローチにより、選択したデータセットがパフォーマンスの低下につながる理由を説明できるようになります。
要約(オリジナル)
Data quality is crucial for the successful training, generalization and performance of artificial intelligence models. We propose to measure data quality for supervised learning using topological data analysis techniques. Specifically, we provide a novel topological invariant based on persistence matchings induced by inclusions and using $0$-dimensional persistent homology. We show that such an invariant is stable. We provide an algorithm and relate it to images, kernels, and cokernels of the induced morphisms. Also, we show that the invariant allows us to understand whether the subset ‘represents well’ the clusters from the larger dataset or not, and we also use it to estimate bounds for the Hausdorff distance between the subset and the complete dataset. This approach enables us to explain why the chosen dataset will lead to poor performance.
arxiv情報
著者 | Álvaro Torras-Casas,Eduardo Paluzo-Hidalgo,Rocio Gonzalez-Diaz |
発行日 | 2024-06-26 13:37:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google