Empowering Character-level Text Infilling by Eliminating Sub-Tokens

要約

タスクの充填では、完全なトークンが 2 つの部分に分割されるインスタンスを表すサブトークンが、プレフィックス、ミドル、サフィックスの境界に現れることがよくあります。
従来の手法は、トークン レベルでのモデルのトレーニングに重点を置いていたため、推論段階でのキャラクター レベルの埋め込みタスクのパフォーマンスが最適化されていませんでした。
あるいは、いくつかのアプローチはキャラクターレベルの埋め込みを考慮しましたが、推論におけるサブトークンの予測に依存していましたが、この戦略ではサブトークンのモデルが非常に複雑であるため、キャラクターレベルの埋め込みタスクの能力が低下しました。
このペーパーでは、開始文字と終了文字の両方の制約を持つ Fill-In-the-Middle の略である FIM-SE を紹介します。
提案された方法は、推論におけるサブトークンの予測を回避するために行レベルの形式を利用することにより、文字レベルの埋め込みタスクに対処します。
さらに、残りの不完全な行を示す 2 つの特別なトークンを組み込んで、生成ガイダンスを強化します。
広範な実験により、私たちが提案したアプローチが以前の方法を上回り、大きな利点があることが実証されました。
コードは https://github.com/SenseLLM/FIM-SE で入手できます。

要約(オリジナル)

In infilling tasks, sub-tokens, representing instances where a complete token is segmented into two parts, often emerge at the boundaries of prefixes, middles, and suffixes. Traditional methods focused on training models at the token level, leading to sub-optimal performance in character-level infilling tasks during the inference stage. Alternately, some approaches considered character-level infilling, but they relied on predicting sub-tokens in inference, yet this strategy diminished ability in character-level infilling tasks due to the large perplexity of the model on sub-tokens. In this paper, we introduce FIM-SE, which stands for Fill-In-the-Middle with both Starting and Ending character constraints. The proposed method addresses character-level infilling tasks by utilizing a line-level format to avoid predicting any sub-token in inference. In addition, we incorporate two special tokens to signify the rest of the incomplete lines, thereby enhancing generation guidance. Extensive experiments demonstrate that our proposed approach surpasses previous methods, offering a significant advantage. Code is available at https://github.com/SenseLLM/FIM-SE.

arxiv情報

著者 Houxing Ren,Mingjie Zhan,Zhongyuan Wu,Hongsheng Li
発行日 2024-05-27 12:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク