Reciprocal Learning

要約

私たちは、さまざまな機械学習アルゴリズムが、相互学習という 1 つのパラダイムの具体例であることを実証します。
これらのインスタンスは、多腕の盗賊によるアクティブ ラーニングから自己トレーニングまで多岐にわたります。
これらすべてのアルゴリズムがデータからパラメーターを学習するだけでなく、その逆も行うことを示します。これらのアルゴリズムは、現在のモデルの適合に応じてトレーニング データを繰り返し変更します。
意思決定理論の言語を使用して、これらのアルゴリズムを一般化したものとして相互学習を導入します。
これにより、どのような条件で収束するかを調べることができます。
重要なのは、バナッハの不動点定理が適用されるような相互学習契約を保証することです。
このようにして、相反学習アルゴリズムは、その予測が確率的であり、サンプル適応が貪欲でなく、ランダム化または正規化されている場合、損失関数に関する比較的穏やかな仮定の下で線形速度でほぼ最適なモデルに収束することがわかります。
私たちはこれらの発見を解釈し、それらを特定のアクティブ ラーニング、自己トレーニング、バンディット アルゴリズムに関連付ける帰結を提供します。

要約(オリジナル)

We demonstrate that a wide array of machine learning algorithms are specific instances of one single paradigm: reciprocal learning. These instances range from active learning over multi-armed bandits to self-training. We show that all these algorithms do not only learn parameters from data but also vice versa: They iteratively alter training data in a way that depends on the current model fit. We introduce reciprocal learning as a generalization of these algorithms using the language of decision theory. This allows us to study under what conditions they converge. The key is to guarantee that reciprocal learning contracts such that the Banach fixed-point theorem applies. In this way, we find that reciprocal learning algorithms converge at linear rates to an approximately optimal model under relatively mild assumptions on the loss function, if their predictions are probabilistic and the sample adaption is both non-greedy and either randomized or regularized. We interpret these findings and provide corollaries that relate them to specific active learning, self-training, and bandit algorithms.

arxiv情報

著者 Julian Rodemann,Christoph Jansen,Georg Schollmeyer
発行日 2024-08-12 16:14:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 68T37, 68W25, cs.LG, math.OC, math.ST, stat.ME, stat.ML, stat.TH パーマリンク