要約
ジニ係数を統合指標として使用して、ベクトル空間における多対多 (全対全) の類似性を評価できることを示します。
さまざまな画像データセットを分析したところ、ジニ係数が最も高い画像は互いに最も類似する傾向があり、ジニ係数が最も低い画像は最も類似していないことがわかりました。
また、この関係がさまざまなコーパスからのベクトル化されたテキスト埋め込みにも当てはまることを示し、私たちの方法の一貫性とさまざまな種類のデータにわたる幅広い適用可能性を強調しています。
さらに、テスト データセットの分布に厳密に一致する機械学習トレーニング サンプルを選択することの方が、データの多様性を確保することよりもはるかに重要であることを示します。
より高いジニ係数を持つ模範的かつ象徴的なトレーニング サンプルを選択すると、より低いジニ係数を持つ多様なトレーニング セットを単に使用する場合と比較して、モデルのパフォーマンスが大幅に向上します。
したがって、ジニ係数は、機械学習のトレーニング サンプルを選択するための効果的な基準として機能し、非常にまばらな情報設定では、私たちの選択方法がランダム サンプリング方法よりも優れています。
要約(オリジナル)
We demonstrate that Gini coefficients can be used as unified metrics to evaluate many-versus-many (all-to-all) similarity in vector spaces. Our analysis of various image datasets shows that images with the highest Gini coefficients tend to be the most similar to one another, while images with the lowest Gini coefficients are the least similar. We also show that this relationship holds true for vectorized text embeddings from various corpuses, highlighting the consistency of our method and its broad applicability across different types of data. Additionally, we demonstrate that selecting machine learning training samples that closely match the distribution of the testing dataset is far more important than ensuring data diversity. Selection of exemplary and iconic training samples with higher Gini coefficients leads to significantly better model performance compared to simply having a diverse training set with lower Gini coefficients. Thus, Gini coefficients can serve as effective criteria for selecting machine learning training samples, with our selection method outperforming random sampling methods in very sparse information settings.
arxiv情報
著者 | Ben Fauber |
発行日 | 2024-11-12 18:08:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google