Learning from String Sequences

要約

ユニバーサル類似性メトリック (USM) は、配列データ間の「類似性」の実際に役立つ尺度を提供することが実証されています。
ここでは、可変長シーケンス データの効果的なパターン認識を可能にするために、K-最近傍 (K-NN) 学習器の代替距離メトリックとして USM を使用しました。
この USM アプローチを、一般的に使用される文字列から単語へのベクトル アプローチと比較します。
私たちの実験では、(1) スパム電子メールのフィルタリングと (2) タンパク質の細胞内局在化という、異なるドメインの 2 つのデータ セットを使用しました。
このデータを用いた結果から、USM ベースの K-NN 学習器は、(1) 文字列から単語へのベクトル アプローチを使用する手法で出力されるものよりも高い分類精度で予測を提供し、(2) 信頼性の高い予測を生成するために使用できることが明らかになりました。
確率予測。

要約(オリジナル)

The Universal Similarity Metric (USM) has been demonstrated to give practically useful measures of ‘similarity’ between sequence data. Here we have used the USM as an alternative distance metric in a K-Nearest Neighbours (K-NN) learner to allow effective pattern recognition of variable length sequence data. We compare this USM approach with the commonly used string-to-word vector approach. Our experiments have used two data sets of divergent domains: (1) spam email filtering and (2) protein subcellular localization. Our results with this data reveal that the USM-based K-NN learner (1) gives predictions with higher classification accuracy than those output by techniques that use the string-to-word vector approach, and (2) can be used to generate reliable probability forecasts.

arxiv情報

著者 David Lindsay,Sian Lindsay
発行日 2024-05-10 08:09:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CV, cs.LG パーマリンク