Domain specificity and data efficiency in typo tolerant spell checkers: the case of search in online marketplaces

要約

誤字脱字は、オンラインマーケットプレイスの訪問者にとって大きなフラストレーションの原因です。このようなマーケットプレイスはドメインに特化しており、ユーザーが検索するクエリは非常に短い傾向にあるため、従来のスペルチェッキングソリューションでは誤字の訂正がうまくいかない。我々は、注釈付き誤字データの不足に対処するためのデータ補強法を提示し、リカレント・ニューラル・ネットワークを訓練して、文脈に限定されたドメイン固有の埋め込みを学習する。これらの埋め込みは、スペルミスのユーザークエリと利用可能な製品名の間の最も近い一致を見つけるために、Microsoft AppSourceマーケットプレイスのリアルタイム推論APIに展開される。我々のデータ効率化ソリューションは、特に、法外に巨大で、しばしば管理されていないデータセットに依存する大規模言語モデルの現状を考慮すると、管理された高品質の合成データが強力なツールとなり得ることを示している。

要約(オリジナル)

Typographical errors are a major source of frustration for visitors of online marketplaces. Because of the domain-specific nature of these marketplaces and the very short queries users tend to search for, traditional spell cheking solutions do not perform well in correcting typos. We present a data augmentation method to address the lack of annotated typo data and train a recurrent neural network to learn context-limited domain-specific embeddings. Those embeddings are deployed in a real-time inferencing API for the Microsoft AppSource marketplace to find the closest match between a misspelled user query and the available product names. Our data efficient solution shows that controlled high quality synthetic data may be a powerful tool especially considering the current climate of large language models which rely on prohibitively huge and often uncontrolled datasets.

arxiv情報

著者 Dayananda Ubrangala,Juhi Sharma,Ravi Prasad Kondapalli,Kiran R,Amit Agarwala,Laurent Boué
発行日 2023-08-03 18:11:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク