Separability and Scatteredness (S&S) Ratio-Based Efficient SVM Regularization Parameter, Kernel, and Kernel Parameter Selection

要約

サポート ベクター マシン (SVM) は、分類、回帰、外れ値の検出に幅広く応用できる堅牢な機械学習アルゴリズムです。
SVM では、モデルの容量と汎化パフォーマンスを制御する正則化パラメーター (RP) を調整する必要があります。
従来、最適な RP は、クロス検証 (CV) 手順を通じて値の範囲を比較することによって見つけられます。
さらに、非線形分離可能なデータの場合、SVM はカーネルを使用します。カーネルのセットは、それぞれがパラメータのセットを持ち、カーネルのグリッドとして示されます。
RP とカーネルのグリッドの最適な選択は、CV のグリッド検索によって行われます。
この研究では、正則化パラメータの動作を確率的に分析することにより、SVM のパフォーマンスがデータの分離性と散乱性 (S&S) の関数としてモデル化できることを示しています。
分離性はクラス間の距離の尺度であり、散在性はデータ ポイントの広がりの比率です。
特に、ヒンジ損失コスト関数については、S&S 比率ベースのテーブルが最適な RP を提供します。
S&S 比は、SVM アルゴリズムを使用する前に線形または非線形の分離可能性を自動的に検出できる強力な値です。
提供される S&S 比率ベースのテーブルは、SVM アルゴリズムを使用する前に最適なカーネルとそのパラメーターを提供することもできます。
その結果、CV グリッド検索の計算の複雑さは、SVM を 1 回使用するだけで済みます。
実際のデータセットでのシミュレーション結果は、計算の複雑さの点で、グリッド検索 CV 法よりも提案されたアプローチの優位性と効率性を確認します。

要約(オリジナル)

Support Vector Machine (SVM) is a robust machine learning algorithm with broad applications in classification, regression, and outlier detection. SVM requires tuning the regularization parameter (RP) which controls the model capacity and the generalization performance. Conventionally, the optimum RP is found by comparison of a range of values through the Cross-Validation (CV) procedure. In addition, for non-linearly separable data, the SVM uses kernels where a set of kernels, each with a set of parameters, denoted as a grid of kernels, are considered. The optimal choice of RP and the grid of kernels is through the grid-search of CV. By stochastically analyzing the behavior of the regularization parameter, this work shows that the SVM performance can be modeled as a function of separability and scatteredness (S&S) of the data. Separability is a measure of the distance between classes, and scatteredness is the ratio of the spread of data points. In particular, for the hinge loss cost function, an S&S ratio-based table provides the optimum RP. The S&S ratio is a powerful value that can automatically detect linear or non-linear separability before using the SVM algorithm. The provided S&S ratio-based table can also provide the optimum kernel and its parameters before using the SVM algorithm. Consequently, the computational complexity of the CV grid-search is reduced to only one time use of the SVM. The simulation results on the real dataset confirm the superiority and efficiency of the proposed approach in the sense of computational complexity over the grid-search CV method.

arxiv情報

著者 Mahdi Shamsi,Soosan Beheshti
発行日 2023-05-17 13:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP, stat.ML パーマリンク