要約
インスタンスの選択(IS)は、重要な特性を維持しながらデータセットサイズを削減するために機械学習において重要です。
電流は、多くの場合、高次元の空間で複雑な関係をキャプチャするのに苦労し、大きなデータセットを使用してスケーリングします。
このペーパーでは、グラフ表現における構造的関係を通じて、注意メカニズムを使用して有益なインスタンスを特定するグラフ注意ベースのインスタンス選択(GAIS)メソッドを紹介します。
スケーラブルなグラフ構造のための2つのアプローチを提示します。戦略的バッチ処理を介した計算を削減する距離ベースのミニバッチサンプリング手法と、ランダム投影を介した効率的な類似性計算を可能にする階層ハッシュアプローチです。
ミニバッチアプローチは、層別サンプリングを通じてクラスの分布を維持し、階層ハッシュメソッドは、単一レベル、マルチレベル、およびマルチビューバリアントを通じて複数の粒度での関係をキャプチャします。
39のデータセットの実験では、GAIが最先端のISメソッドと比較してモデルのパフォーマンスを維持または改善しながら、96 \%を超える削減率を達成することが示されています。
調査結果は、距離ベースのミニバッチアプローチが大規模なデータセットの効率と有効性の最適なバランスを提供し、マルチビューバリアントは複雑で高次元のデータに対して優れたパフォーマンスを提供し、注意に基づく重要性のスコアリングが、網羅的なペアワイズ比較を必要とせずに意思決定境界を維持するために重要なインスタンスを効果的に識別できることを示しています。
要約(オリジナル)
Instance selection (IS) is important in machine learning for reducing dataset size while keeping key characteristics. Current IS methods often struggle with capturing complex relationships in high-dimensional spaces and scale with large datasets. This paper introduces a graph attention-based instance selection (GAIS) method that uses attention mechanisms to identify informative instances through their structural relationships in graph representations. We present two approaches for scalable graph construction: a distance-based mini-batch sampling technique that reduces computation through strategic batch processing, and a hierarchical hashing approach that allows for efficient similarity computation through random projections. The mini-batch approach keeps class distributions through stratified sampling, while the hierarchical hashing method captures relationships at multiple granularities through single-level, multi-level, and multi-view variants. Experiments across 39 datasets show that GAIS achieves reduction rates above 96\% while maintaining or improving model performance relative to state-of-the-art IS methods. The findings shows that the distance-based mini-batch approach offers an optimal balance of efficiency and effectiveness for large-scale datasets, while multi-view variants provide superior performance for complex, high-dimensional data, demonstrating that attention-based importance scoring can effectively identify instances crucial for maintaining decision boundaries without requiring exhaustive pairwise comparisons.
arxiv情報
著者 | Zahiriddin Rustamov,Ayham Zaitouny,Nazar Zaki |
発行日 | 2025-02-27 17:17:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google