要約
現代のデータセットは指数関数的に増大し続けており、このような大規模データセットを扱うことのできる効率的なマイニングアルゴリズムの需要はますます高まっている。本稿では、大規模データセットに対するメモリボトルネックとして知られる、知識発見の基本的なトピックである逐次パターンマイニング(Sequential Pattern Mining: SPM)のためのメモリ効率の良いアプローチを開発する。我々の手法は、データセットをメモリにコンパクトに格納するために、繰り返しパターンを利用する新しいハイブリッドトライデータ構造と、このコンパクトな表現から効果的にパターンを抽出するように設計された対応するマイニングアルゴリズムを含む。実際のテストインスタンスにおける数値結果は、小~中規模のデータセットにおいて、メモリ消費量で平均88%、計算時間で41%の改善を示している。さらに、我々のアルゴリズムは、256GBのシステムメモリ内で大規模データセットに対応できる唯一のSPMアプローチとして際立っている。
要約(オリジナル)
As modern data sets continue to grow exponentially in size, the demand for efficient mining algorithms capable of handling such large data sets becomes increasingly imperative. This paper develops a memory-efficient approach for Sequential Pattern Mining (SPM), a fundamental topic in knowledge discovery that faces a well-known memory bottleneck for large data sets. Our methodology involves a novel hybrid trie data structure that exploits recurring patterns to compactly store the data set in memory; and a corresponding mining algorithm designed to effectively extract patterns from this compact representation. Numerical results on real-life test instances show an average improvement of 88% in memory consumption and 41% in computation time for small to medium-sized data sets compared to the state of the art. Furthermore, our algorithm stands out as the only capable SPM approach for large data sets within 256GB of system memory.
arxiv情報
著者 | Amin Hosseininasab,Willem-Jan van Hoeve,Andre A. Cire |
発行日 | 2024-03-01 03:35:35+00:00 |
arxivサイト | arxiv_id(pdf) |