On Distributed Larger-Than-Memory Subset Selection With Pairwise Submodular Functions

要約

多くの学習問題は、サブセットの選択、つまり重要な代表点のサブセットを特定するという基本的な問題に依存しています。
たとえば、ML トレーニングで最も重要なサンプルを選択すると、トレーニング コストが削減されるだけでなく、モデルの品質も向上します。
凸性の離散的な類似物であるサブモジュール性は、サブセット選択問題を解決するために一般的に使用されます。
ただし、サブモジュール関数を最適化するための既存のアルゴリズムは逐次的であり、従来の分散手法では、ターゲットのサブセットに適合させるために少なくとも 1 つの中央マシンが必要です。
この論文では、証明可能な近似を保証する新しい分散境界アルゴリズムを提案することにより、ターゲットのサブセットに中央マシンを持つという要件を緩和します。
このアルゴリズムは、最小および最大のユーティリティ値を繰り返し制限して、高品質のポイントを選択し、重要でないポイントを破棄します。
バウンディングで完全なサブセットが見つからない場合は、マルチラウンドのパーティションベースの分散貪欲アルゴリズムを使用して、残りのサブセットを特定します。
これらのアルゴリズムは、集中型の手法と比較して品質の損失がわずかまたはまったくなく、CIFAR-100 および ImageNet 上で高品質のサブセットを検出し、130 億ポイントのデータセットに拡張できることを示します。

要約(オリジナル)

Many learning problems hinge on the fundamental problem of subset selection, i.e., identifying a subset of important and representative points. For example, selecting the most significant samples in ML training cannot only reduce training costs but also enhance model quality. Submodularity, a discrete analogue of convexity, is commonly used for solving subset selection problems. However, existing algorithms for optimizing submodular functions are sequential, and the prior distributed methods require at least one central machine to fit the target subset. In this paper, we relax the requirement of having a central machine for the target subset by proposing a novel distributed bounding algorithm with provable approximation guarantees. The algorithm iteratively bounds the minimum and maximum utility values to select high quality points and discard the unimportant ones. When bounding does not find the complete subset, we use a multi-round, partition-based distributed greedy algorithm to identify the remaining subset. We show that these algorithms find high quality subsets on CIFAR-100 and ImageNet with marginal or no loss in quality compared to centralized methods, and scale to a dataset with 13 billion points.

arxiv情報

著者 Maximilian Böther,Abraham Sebastian,Pranjal Awasthi,Ana Klimovic,Srikumar Ramalingam
発行日 2024-02-26 09:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.DC, cs.LG, math.OC パーマリンク