要約
正確なスペル修正は、最新の検索インターフェイス、特にモバイル デバイスと音声テキスト変換インターフェイスの時代では重要なステップです。
世界中で展開されているサービスにとって、これは多言語 NLP にとって大きな課題となります。すべての言語で、さらには複数の言語を使用するクエリでもスペル ミスを検出して修正する必要があります。
このペーパーでは、マルチ教師蒸留を使用してこの課題に取り組みます。
私たちのアプローチでは、単一言語の教師モデルが言語/ロケールごとにトレーニングされ、これらの個々のモデルが、すべての言語/ロケールに対応することを目的とした単一の多言語生徒モデルに蒸留されます。
オープンソース データと世界規模の検索サービスからのユーザー データを使用した実験では、これが展開されたサービスの厳しいレイテンシ要件を満たすことができる非常に効果的なスペル修正モデルにつながることを示しました。
要約(オリジナル)
Accurate spelling correction is a critical step in modern search interfaces, especially in an era of mobile devices and speech-to-text interfaces. For services that are deployed around the world, this poses a significant challenge for multilingual NLP: spelling errors need to be caught and corrected in all languages, and even in queries that use multiple languages. In this paper, we tackle this challenge using multi-teacher distillation. On our approach, a monolingual teacher model is trained for each language/locale, and these individual models are distilled into a single multilingual student model intended to serve all languages/locales. In experiments using open-source data as well as user data from a worldwide search service, we show that this leads to highly effective spelling correction models that can meet the tight latency requirements of deployed services.
arxiv情報
著者 | Jingfen Zhang,Xuan Guo,Sravan Bodapati,Christopher Potts |
発行日 | 2023-11-20 03:44:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google