SoftMatcha: A Soft and Fast Pattern Matcher for Billion-Scale Corpus Searches

要約

自然言語処理と計算言語学の研究者と実践者は、大規模なコーパスの実際の言語使用を頻繁に観察して分析します。
その目的のために、彼らはしばしば、GREPやキーワードインコルダンサーなどの既製のパターンマッチングツールを使用します。
それにもかかわらず、これらの既存の手法は、表面レベルの文字列の一致に依存しているため、正書法のバリエーションと言い換えを処理できないという主要な制限に悩まされています。
さらに、密なベクター検索などの既存の連続的なアプローチは、過度に粗く、無関係であるが同様のトピックを共有するテキストを取得することがよくあります。
これらの課題を考慮して、単語の埋め込みと表面レベルのマッチングをリラックスさせることにより、\ emph {soft}(またはセマンティック)でありながら効率的なパターンマッチングを達成する新しいアルゴリズムを提案します。
当社のアルゴリズムは、反転インデックスを使用したコーパステキストのサイズに関して非常にスケーラブルです。
効率的な実装を準備し、アクセス可能なWebツールを提供しています。
私たちの実験は、提案された方法(i)が1秒未満で10億スケールのコーパスで検索を実行できることを示しています。
(ii)英語と日本のワイキペディアの記事の大規模なセットから意味的に一致する有害なインスタンスを抽出できます。
(iii)非常に多様な変曲を持つ言語であるラテン語のコーパス言語分析に効果的に適用できます。

要約(オリジナル)

Researchers and practitioners in natural language processing and computational linguistics frequently observe and analyze the real language usage in large-scale corpora. For that purpose, they often employ off-the-shelf pattern-matching tools, such as grep, and keyword-in-context concordancers, which is widely used in corpus linguistics for gathering examples. Nonetheless, these existing techniques rely on surface-level string matching, and thus they suffer from the major limitation of not being able to handle orthographic variations and paraphrasing — notable and common phenomena in any natural language. In addition, existing continuous approaches such as dense vector search tend to be overly coarse, often retrieving texts that are unrelated but share similar topics. Given these challenges, we propose a novel algorithm that achieves \emph{soft} (or semantic) yet efficient pattern matching by relaxing a surface-level matching with word embeddings. Our algorithm is highly scalable with respect to the size of the corpus text utilizing inverted indexes. We have prepared an efficient implementation, and we provide an accessible web tool. Our experiments demonstrate that the proposed method (i) can execute searches on billion-scale corpora in less than a second, which is comparable in speed to surface-level string matching and dense vector search; (ii) can extract harmful instances that semantically match queries from a large set of English and Japanese Wikipedia articles; and (iii) can be effectively applied to corpus-linguistic analyses of Latin, a language with highly diverse inflections.

arxiv情報

著者 Hiroyuki Deguchi,Go Kamoda,Yusuke Matsushita,Chihiro Taguchi,Kohei Suenaga,Masaki Waga,Sho Yokoi
発行日 2025-03-05 17:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク