要約
誤字脱字は、オンラインマーケットプレイスの訪問者にとって大きなフラストレーションの原因です。このようなマーケットプレイスはドメインに特化しており、ユーザーが検索するクエリは非常に短い傾向にあるため、従来のスペルチェッキングソリューションでは誤字の訂正がうまくいかない。我々は、注釈付き誤字データの不足に対処するためのデータ補強法を提示し、リカレント・ニューラル・ネットワークを訓練して、文脈に限定されたドメイン固有の埋め込みを学習する。これらの埋め込みは、スペルミスのユーザークエリと利用可能な製品名の間の最も近い一致を見つけるために、Microsoft AppSourceマーケットプレイスのリアルタイム推論APIに展開される。我々のデータ効率化ソリューションは、特に、法外に巨大で、しばしば管理されていないデータセットに依存する大規模言語モデルの現状を考慮すると、管理された高品質の合成データが強力なツールとなり得ることを示している。
要約(オリジナル)
Typographical errors are a major source of frustration for visitors of online marketplaces. Because of the domain-specific nature of these marketplaces and the very short queries users tend to search for, traditional spell cheking solutions do not perform well in correcting typos. We present a data augmentation method to address the lack of annotated typo data and train a recurrent neural network to learn context-limited domain-specific embeddings. Those embeddings are deployed in a real-time inferencing API for the Microsoft AppSource marketplace to find the closest match between a misspelled user query and the available product names. Our data efficient solution shows that controlled high quality synthetic data may be a powerful tool especially considering the current climate of large language models which rely on prohibitively huge and often uncontrolled datasets.
arxiv情報
著者 | Dayananda Ubrangala,Juhi Sharma,Ravi Prasad Kondapalli,Kiran R,Amit Agarwala,Laurent Boué |
発行日 | 2023-08-03 18:11:00+00:00 |
arxivサイト | arxiv_id(pdf) |