Mixture Weight Estimation and Model Prediction in Multi-source Multi-target Domain Adaptation

要約

新しいターゲット分布で適切なパフォーマンスを発揮することを目的として、複数の異種ソースからモデルを学習する問題を検討します。
学習者の目標は、ターゲット分布を意識した方法でこれらのデータ ソースを混合し、同時に混合ソースの経験的リスクを最小限に抑えることです。
文献は、混合領域の学習理論の確立においていくつかの目に見える進歩をもたらしました。
しかし、まだ解決されていない問題が 2 つあります。
まず、ターゲット ドメインが与えられた場合に、ソースの最適な組み合わせを推定する方法です。
第 2 に、ターゲット ドメインが多数ある場合、計算効率の高い方法でデータ ソースの一意の組み合わせを使用して各ターゲットの経験的リスク最小化 (ERM) を解決する方法です。
この文書では、両方の問題を効率的にかつ確実に解決します。
最初の問題である混合重量推定を凸非凹組成ミニマックス問題として想定し、証明可能な定常性が保証された効率的な確率的アルゴリズムを提案します。
次に、2 番目の問題については、特定のレジームでは、ターゲット領域ごとに ERM を個別に解くことが回避でき、その代わりに、ターゲット最適モデルのパラメーターを混合係数の空間上の非線形関数として見ることができることを確認します。
これに基づいて、オフライン設定では、GD でトレーニングされたオーバーパラメーター化ニューラル ネットワークが、指定された ERM 問題を解決するのではなく、ターゲット ドメインのモデルを予測する関数を学習できることが証明できることを示します。
最後に、オンライン設定も考慮し、ラベル効率の良いオンライン アルゴリズムを提案します。このアルゴリズムは、任意の混合係数シーケンスを指定して新しいターゲットのパラメータを予測し、同時にリグレス保証を享受します。

要約(オリジナル)

We consider the problem of learning a model from multiple heterogeneous sources with the goal of performing well on a new target distribution. The goal of learner is to mix these data sources in a target-distribution aware way and simultaneously minimize the empirical risk on the mixed source. The literature has made some tangible advancements in establishing theory of learning on mixture domain. However, there are still two unsolved problems. Firstly, how to estimate the optimal mixture of sources, given a target domain; Secondly, when there are numerous target domains, how to solve empirical risk minimization (ERM) for each target using possibly unique mixture of data sources in a computationally efficient manner. In this paper we address both problems efficiently and with guarantees. We cast the first problem, mixture weight estimation, as a convex-nonconcave compositional minimax problem, and propose an efficient stochastic algorithm with provable stationarity guarantees. Next, for the second problem, we identify that for certain regimes, solving ERM for each target domain individually can be avoided, and instead parameters for a target optimal model can be viewed as a non-linear function on a space of the mixture coefficients. Building upon this, we show that in the offline setting, a GD-trained overparameterized neural network can provably learn such function to predict the model of target domain instead of solving a designated ERM problem. Finally, we also consider an online setting and propose a label efficient online algorithm, which predicts parameters for new targets given an arbitrary sequence of mixing coefficients, while enjoying regret guarantees.

arxiv情報

著者 Yuyang Deng,Ilja Kuzborskij,Mehrdad Mahdavi
発行日 2023-09-19 16:29:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク