要約
より良い学習のために、大きなデータセットは多くの場合、小さなバッチに分割され、予測モデルに連続的に供給されます。
この論文では、このようなバッチ分解を確率的な観点から研究します。
データポイント(おそらく破損している可能性がある)は、特定のスペースから独立して描画され、2つのデータポイント間の類似性の概念を定義すると仮定します。
次に、各バッチ内の類似性の量を制限し、最小サイズの高い確率境界を取得する分解を検討します。
類似性の制約と全体のサイズを緩和することとの固有のトレードオフを示し、Martingaleメソッドを使用して、特定の類似性を持つデータサブセットの最大サイズの境界を取得します。
要約(オリジナル)
For better learning, large datasets are often split into small batches and fed sequentially to the predictive model. In this paper, we study such batch decompositions from a probabilistic perspective. We assume that data points (possibly corrupted) are drawn independently from a given space and define a concept of similarity between two data points. We then consider decompositions that restrict the amount of similarity within each batch and obtain high probability bounds for the minimum size. We demonstrate an inherent tradeoff between relaxing the similarity constraint and the overall size and also use martingale methods to obtain bounds for the maximum size of data subsets with a given similarity.
arxiv情報
著者 | Ghurumuruhan Ganesan |
発行日 | 2025-04-09 15:58:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google