Back to Patterns: Efficient Japanese Morphological Analysis with Feature-Sequence Trie

要約

正確なニューラル モデルは、非ニューラル モデルに比べて効率が大幅に低く、限られた予算で数十億のソーシャル メディア投稿を処理したり、ユーザーのクエリをリアルタイムで処理したりするには役に立ちません。
この研究では、最速のパターンベースの NLP 手法を再検討して、可能な限り正確にすることで、驚くほどシンプルでありながら驚くほど正確な日本語向け形態素解析ツールを実現しました。
提案手法は形態素辞書と注釈付きデータから信頼できるパターンを導き出します。
2 つの標準データセットでの実験結果では、この手法が学習ベースのベースラインと同等の精度を示しながら、最新の 1 つの CPU で 1 秒あたり 1,000,000 文を超える驚異的なスループットを誇ることが確認されました。
ソースコードはhttps://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jagger/から入手できます。

要約(オリジナル)

Accurate neural models are much less efficient than non-neural models and are useless for processing billions of social media posts or handling user queries in real time with a limited budget. This study revisits the fastest pattern-based NLP methods to make them as accurate as possible, thus yielding a strikingly simple yet surprisingly accurate morphological analyzer for Japanese. The proposed method induces reliable patterns from a morphological dictionary and annotated data. Experimental results on two standard datasets confirm that the method exhibits comparable accuracy to learning-based baselines, while boasting a remarkable throughput of over 1,000,000 sentences per second on a single modern CPU. The source code is available at https://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jagger/

arxiv情報

著者 Naoki Yoshinaga
発行日 2023-05-30 14:00:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク