要約
この研究では、特定のターゲット セット $T$ を最もよく表すソース データセット $S$ から有益なデータ インスタンスのコンパクトなセット (つまり、プロトタイプ) を特定するためのマルチアーム バンディット ベースのフレームワークを提案します。
特定のデータセットのプロトタイプの例は、基礎となるデータ分布に対する解釈可能な洞察を提供し、例に基づいた推論を支援するため、人間の意思決定のあらゆる領域に影響を与えます。
現在の最先端のプロトタイプ選択アプローチでは、ソース データ ポイントとターゲット データ ポイントの間の $O(|S||T|)$ の類似性比較が必要ですが、大規模な設定では法外なコストがかかります。
我々は、類似性の比較の数を減らすために、プロトタイプの例とマルチアームバンディットの空間で確率的貪欲検索を採用することによって、この制限を緩和することを提案します。
私たちのランダム化アルゴリズム ProtoBandit は、ターゲット セットのサイズに依存しない $O(k^3|S|)$ の類似性比較を行う $k$ プロトタイプのセットを識別します。
私たちの分析の興味深い結果は、$k$-medoids クラスタリング問題 $T = S$ 設定) に関するもので、アルゴリズム ProtoBandit が $O(k における medoids 周囲の分割 (PAM) メソッドの BUILD ステップ解を近似していることを示しています)
^3|S|)$ の複雑さ。
経験的に、ProtoBandit は、最先端のアプローチと同様の品質のソリューションを取得しながら、類似度計算呼び出しの数を数桁 ($100 ~ 1000$ 倍) 削減できることがわかりました。
要約(オリジナル)
In this work, we propose a multi-armed bandit-based framework for identifying a compact set of informative data instances (i.e., the prototypes) from a source dataset $S$ that best represents a given target set $T$. Prototypical examples of a given dataset offer interpretable insights into the underlying data distribution and assist in example-based reasoning, thereby influencing every sphere of human decision-making. Current state-of-the-art prototype selection approaches require $O(|S||T|)$ similarity comparisons between source and target data points, which becomes prohibitively expensive for large-scale settings. We propose to mitigate this limitation by employing stochastic greedy search in the space of prototypical examples and multi-armed bandits for reducing the number of similarity comparisons. Our randomized algorithm, ProtoBandit, identifies a set of $k$ prototypes incurring $O(k^3|S|)$ similarity comparisons, which is independent of the size of the target set. An interesting outcome of our analysis is for the $k$-medoids clustering problem $T = S$ setting) in which we show that our algorithm ProtoBandit approximates the BUILD step solution of the partitioning around medoids (PAM) method in $O(k^3|S|)$ complexity. Empirically, we observe that ProtoBandit reduces the number of similarity computation calls by several orders of magnitudes ($100-1000$ times) while obtaining solutions similar in quality to those from state-of-the-art approaches.
arxiv情報
著者 | Arghya Roy Chaudhuri,Pratik Jawanpuria,Bamdev Mishra |
発行日 | 2023-08-23 15:22:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google