要約
ラベルのないサンプルが多数あるデータセットに対する半教師あり学習に従来のグラフベースのアプローチを使用する場合、計算効率が大きなボトルネックになります。
効率を向上させるための既知の手法には通常、グラフの正則化目標の近似が含まれますが、2 つの大きな欠点があります。1 つ目は、グラフが既知であるか、ヒューリスティックなハイパーパラメータ値を使用して構築されていると想定されること、2 つ目は、全体にわたる学習に対する原則に基づいた近似保証が提供されないことです。
ラベルのないデータセット。
同じドメインの問題に対する複数のデータセットからの半教師あり学習のための学習グラフに関する最近の研究に基づいて、グラフのラプラシアン行列の線形システムを解くための高速近似の手法を活用して、上記の両方の制限を克服するアルゴリズムを提案します。
我々は、疎グラフ族と密グラフ族の学習理論的複雑さにおける形式的な分離を示します。
さらに、共役勾配法を使用して、疎なファミリから最適なグラフを効率的に近似学習する方法を示します。
私たちのアプローチは、穏やかな滑らかさの仮定の下で、線形未満のリグレスを使用してグラフをオンラインで効率的に学習するために使用することもできます。
オンライン学習の結果は一般的に述べられており、他の問題における近似的かつ効率的なパラメータ調整に役立つ可能性があります。
私たちはアプローチを実装し、ベンチマーク データセットで学習されたグラフを使用した半教師あり学習の以前の作業と比較して、大幅な ($\sim$10-100x) 高速化を実証しました。
要約(オリジナル)
Computational efficiency is a major bottleneck in using classic graph-based approaches for semi-supervised learning on datasets with a large number of unlabeled examples. Known techniques to improve efficiency typically involve an approximation of the graph regularization objective, but suffer two major drawbacks – first the graph is assumed to be known or constructed with heuristic hyperparameter values, second they do not provide a principled approximation guarantee for learning over the full unlabeled dataset. Building on recent work on learning graphs for semi-supervised learning from multiple datasets for problems from the same domain, and leveraging techniques for fast approximations for solving linear systems in the graph Laplacian matrix, we propose algorithms that overcome both the above limitations. We show a formal separation in the learning-theoretic complexity of sparse and dense graph families. We further show how to approximately learn the best graphs from the sparse families efficiently using the conjugate gradient method. Our approach can also be used to learn the graph efficiently online with sub-linear regret, under mild smoothness assumptions. Our online learning results are stated generally, and may be useful for approximate and efficient parameter tuning in other problems. We implement our approach and demonstrate significant ($\sim$10-100x) speedups over prior work on semi-supervised learning with learned graphs on benchmark datasets.
arxiv情報
著者 | Dravyansh Sharma,Maxwell Jones |
発行日 | 2023-06-12 13:22:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google