WISK: A Workload-aware Learned Index for Spatial Keyword Queries

要約

タイトル:空間キーワードクエリのためのワークロード適応学習インデックスWISK

要約:

– 空間オブジェクトには、POIの説明などのテキスト情報が付属することがある。これをジオテキストデータと呼ぶ。
– 空間的な近接性とテキスト的関連性の両方を考慮した空間キーワードクエリのために、既存のインデックスがあるが、これらはクエリの分布を考慮していない。
– 既存のクエリ分布を活用することが、将来のクエリ処理のためのインデックス構造の改善に繋がることが先行研究でも示されている。
– 本論文では、クエリワークロードに基づいてクエリコストを最適化するための、空間キーワードクエリのための学習インデックスWISKを提案する。
– 上記のために、空間属性とテキスト情報の両方を学習する方法が課題となる。データオブジェクトをパーティションに分割して処理コストを最小化し、最適なパーティションを機械学習モデルで見つける。
– パーティションを生成して、リインフォースメント学習ベースのボトムアップアプローチで階層構造を構築し、より多くのプルーニング効果を得る。
– 実世界のデータセットとクエリワークロードを使用して、広範囲な実験を行い、WISKはすべての競合相手を上回ることが示された。ストレージオーバーヘッドは同等であるが、クエリ時間が最大8倍高速化された。

要約(オリジナル)

Spatial objects often come with textual information, such as Points of Interest (POIs) with their descriptions, which are referred to as geo-textual data. To retrieve such data, spatial keyword queries that take into account both spatial proximity and textual relevance have been extensively studied. Existing indexes designed for spatial keyword queries are mostly built based on the geo-textual data without considering the distribution of queries already received. However, previous studies have shown that utilizing the known query distribution can improve the index structure for future query processing. In this paper, we propose WISK, a learned index for spatial keyword queries, which self-adapts for optimizing querying costs given a query workload. One key challenge is how to utilize both structured spatial attributes and unstructured textual information during learning the index. We first divide the data objects into partitions, aiming to minimize the processing costs of the given query workload. We prove the NP-hardness of the partitioning problem and propose a machine learning model to find the optimal partitions. Then, to achieve more pruning power, we build a hierarchical structure based on the generated partitions in a bottom-up manner with a reinforcement learning-based approach. We conduct extensive experiments on real-world datasets and query workloads with various distributions, and the results show that WISK outperforms all competitors, achieving up to 8x speedup in querying time with comparable storage overhead.

arxiv情報

著者 Yufan Sheng,Xin Cao,Yixiang Fang,Kaiqi Zhao,Jianzhong Qi,Gao Cong,Wenjie Zhang
発行日 2023-04-14 02:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.DB, cs.LG パーマリンク