Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary Restriction as Post Processing

要約

【タイトル】
制限語彙を後処理として導入したDownstream Task-Oriented Neural Tokenizer Optimization

【要約】
本論文では、既にトレーニングされたDownstreamモデルのパフォーマンス向上のためのトークン化を最適化する方法を提案しています。
我々の方法は、制限語彙の学習データにおける下流モデルの損失値を下げるトークン化結果を生成し、その結果を再現するトークナイザをトレーニングすることによって、下流モデルに適用することができます。このため、既存の研究では同時にトークナイザと下流モデルを学習するため、我々の方法は多様なトークン化手法に適用可能です。

本論文では、制限語彙を導入したBiLSTMベースのトークナイザの例を提案し、既存の非ニューラルベースのトークナイザ手法よりも、トークン化プロセスにおいてより広範な文脈情報を捉えることができます。日本語、中国語、英語のテキスト分類タスクにおける実験結果は、本提案手法がトークン化最適化の既存手法よりもパフォーマンスを向上させることを示しています。

【要点】
– 本論文では、既にトレーニングされたDownstreamモデルのパフォーマンス向上のためのトークン化最適化の方法を提案している
– 提案手法は、制限語彙の学習データにおける下流モデルの損失値を下げるトークン化結果を生成し、その結果を再現するトークナイザをトレーニングすることによって、下流モデルに適用することができる
– 既存の研究では、同時にトークナイザと下流モデルを学習するため、我々の方法は多様なトークン化手法に適用可能
– BiLSTMベースのトークナイザによって、より広範な文脈情報を捉えることができる
– 日本語、中国語、英語のテキスト分類タスクにおいて、提案手法がトークン化最適化の既存手法よりもパフォーマンスを向上させることが実験結果から示された

要約(オリジナル)

This paper proposes a method to optimize tokenization for the performance improvement of already trained downstream models. Our method generates tokenization results attaining lower loss values of a given downstream model on the training data for restricting vocabularies and trains a tokenizer reproducing the tokenization results. Therefore, our method can be applied to variety of tokenization methods, while existing work cannot due to the simultaneous learning of the tokenizer and the downstream model. This paper proposes an example of the BiLSTM-based tokenizer with vocabulary restriction, which can capture wider contextual information for the tokenization process than non-neural-based tokenization methods used in existing work. Experimental results on text classification in Japanese, Chinese, and English text classification tasks show that the proposed method improves performance compared to the existing methods for tokenization optimization.

arxiv情報

著者 Tatsuya Hiraoka,Tomoya Iwakura
発行日 2023-04-21 08:29:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク