Contextual Multilingual Spellchecker for User Queries

要約

タイトル:ユーザークエリの文脈依存のマルチリンガルなスペルチェッカー
要約:
– スペルチェッキングは、最も基本的で広く使用されている検索の機能の1つです。
– 誤ってスペルミスをしたユーザークエリを修正することは、ユーザーエクスペリエンスを向上させるだけでなく、ユーザーに期待されています。
– しかし、現在広く利用可能なスペルチェッキングソリューションのほとんどは、最新のソリューションよりも低い精度であるか、検索において遅すぎるため、レイテンシが重要な要件である場合には使用できません。
– さらに、最近の革新的なアーキテクチャは、英語に焦点を当て、多言語でトレーニングされ、スペル修正のために長いテキストにトレーニングされており、これはコンテキストがスパースであるユーザークエリのスペル修正とは異なる概念です(ほとんどのクエリは1〜2語の長さです)。
– 最後に、ほとんどの企業は製品名などの固有の語彙を持っているため、棚から出しソリューションではユーザーのニーズに対応できません。
– この研究では、特定の製品のニーズに基づいて、極めて高速でスケーラブルなマルチリンガルスペルチェッカーを構築します。
– さらに、ドメイン内のデータセットに対して、私たちのスペルチェッカーは一般的な目的のスペルチェッカーよりもはるかに優れた性能を発揮します。
– 私たちのマルチリンガルスペルチェッカーは、Adobeの製品検索で使用され、様々なアプリケーションでオートコンプリートを提供しています。

要約(オリジナル)

Spellchecking is one of the most fundamental and widely used search features. Correcting incorrectly spelled user queries not only enhances the user experience but is expected by the user. However, most widely available spellchecking solutions are either lower accuracy than state-of-the-art solutions or too slow to be used for search use cases where latency is a key requirement. Furthermore, most innovative recent architectures focus on English and are not trained in a multilingual fashion and are trained for spell correction in longer text, which is a different paradigm from spell correction for user queries, where context is sparse (most queries are 1-2 words long). Finally, since most enterprises have unique vocabularies such as product names, off-the-shelf spelling solutions fall short of users’ needs. In this work, we build a multilingual spellchecker that is extremely fast and scalable and that adapts its vocabulary and hence speller output based on a specific product’s needs. Furthermore, our speller out-performs general purpose spellers by a wide margin on in-domain datasets. Our multilingual speller is used in search in Adobe products, powering autocomplete in various applications.

arxiv情報

著者 Sanat Sharma,Josep Valls-Vargas,Tracy Holloway King,Francois Guerin,Chirag Arora
発行日 2023-05-01 20:29:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク