SIMformer: Single-Layer Vanilla Transformer Can Learn Free-Space Trajectory Similarity

要約

DTW、ハウスドルフ、フレシェなどの自由空間軌跡の類似度計算では、多くの場合二次時間計算量が発生するため、計算を高速化するために学習ベースの方法が提案されています。
中心となるアイデアは、エンコーダをトレーニングして軌跡を表現ベクトルに変換し、ベクトルの類似性を計算してグランド トゥルースを近似することです。
しかし、既存の方法は有効性と効率性という 2 つの課題に直面しています。1) それらはすべてユークリッド距離を利用して表現の類似性を計算するため、次元の問題という深刻な呪いにつながり、表現間の区別性が低下し、後続の類似性検索タスクの精度に大きな影響を及ぼします。
;
2) それらのほとんどはトリプレット方式でトレーニングされており、追加の情報が必要になることが多く、効率が低下します。
3) 以前の研究は、効率の観点からスケーラビリティを強調する一方、データセットのサイズが増大した場合の有効性の低下を見落としていました。
これらの問題に対処するために、我々は、特徴抽出器として単層バニラトランスエンコーダのみを使用し、調整された表現類似性関数を使用してさまざまなグラウンドトゥルース類似性尺度を近似する、シンプルでありながら正確で、高速でスケーラブルなモデルを提案します。
広範な実験により、私たちのモデルが次元問題の呪縛を大幅に軽減し、有効性、効率性、拡張性の点で最先端のモデルを上回ることが実証されました。

要約(オリジナル)

Free-space trajectory similarity calculation, e.g., DTW, Hausdorff, and Frechet, often incur quadratic time complexity, thus learning-based methods have been proposed to accelerate the computation. The core idea is to train an encoder to transform trajectories into representation vectors and then compute vector similarity to approximate the ground truth. However, existing methods face dual challenges of effectiveness and efficiency: 1) they all utilize Euclidean distance to compute representation similarity, which leads to the severe curse of dimensionality issue — reducing the distinguishability among representations and significantly affecting the accuracy of subsequent similarity search tasks; 2) most of them are trained in triplets manner and often necessitate additional information which downgrades the efficiency; 3) previous studies, while emphasizing the scalability in terms of efficiency, overlooked the deterioration of effectiveness when the dataset size grows. To cope with these issues, we propose a simple, yet accurate, fast, scalable model that only uses a single-layer vanilla transformer encoder as the feature extractor and employs tailored representation similarity functions to approximate various ground truth similarity measures. Extensive experiments demonstrate our model significantly mitigates the curse of dimensionality issue and outperforms the state-of-the-arts in effectiveness, efficiency, and scalability.

arxiv情報

著者 Chuang Yang,Renhe Jiang,Xiaohang Xu,Chuan Xiao,Kaoru Sezaki
発行日 2024-10-18 17:30:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.IR, cs.LG パーマリンク