要約
多項式カーネルや指数関数 (ソフトマックス) カーネルなどの内積カーネルは、コンピューター ビジョン、自然言語処理、レコメンダーなどのアプリケーションで重要な入力特徴間の相互作用のモデル化を可能にするため、機械学習で最も広く使用されているカーネルの 1 つです。
システム。
私たちは、ドット積カーネルのランダム特徴近似の効率を向上させるためにいくつかの新しい貢献を行い、これらのカーネルを大規模学習でより有用なものにします。
まず、複素数値のランダム特徴を使用した、Rademacher スケッチやガウス スケッチ、TensorSRHT などの多項式カーネルの既存のランダム特徴近似の一般化を示します。
我々は、複雑な特徴を使用すると、これらの近似値の分散を大幅に削減できることを経験的に示しています。
第 2 に、分散の閉形式を導出することで、さまざまなランダム特徴近似の効率に影響を与える要因を理解するための理論的分析を提供します。
これらの分散公式は、特定の近似 (例: TensorSRHT) が他の近似 (例: Rademacher スケッチ) よりも低い分散を達成する条件と、複雑な特徴の使用が実際の特徴よりも低い分散をもたらす条件を解明します。
第三に、実際に評価できるこれらの分散公式を使用することにより、一般的な内積カーネルのランダム特徴近似を改善するデータ駆動型の最適化アプローチを開発します。これはガウス カーネルにも適用できます。
これらの貢献によってもたらされる改善について、さまざまなタスクやデータセットに関する広範な実験を用いて説明します。
要約(オリジナル)
Dot product kernels, such as polynomial and exponential (softmax) kernels, are among the most widely used kernels in machine learning, as they enable modeling the interactions between input features, which is crucial in applications like computer vision, natural language processing, and recommender systems. We make several novel contributions for improving the efficiency of random feature approximations for dot product kernels, to make these kernels more useful in large scale learning. First, we present a generalization of existing random feature approximations for polynomial kernels, such as Rademacher and Gaussian sketches and TensorSRHT, using complex-valued random features. We show empirically that the use of complex features can significantly reduce the variances of these approximations. Second, we provide a theoretical analysis for understanding the factors affecting the efficiency of various random feature approximations, by deriving closed-form expressions for their variances. These variance formulas elucidate conditions under which certain approximations (e.g., TensorSRHT) achieve lower variances than others (e.g., Rademacher sketches), and conditions under which the use of complex features leads to lower variances than real features. Third, by using these variance formulas, which can be evaluated in practice, we develop a data-driven optimization approach to improve random feature approximations for general dot product kernels, which is also applicable to the Gaussian kernel. We describe the improvements brought by these contributions with extensive experiments on a variety of tasks and datasets.
arxiv情報
著者 | Jonas Wacker,Motonobu Kanagawa,Maurizio Filippone |
発行日 | 2024-08-13 14:22:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google