Token Alignment via Character Matching for Subword Completion

要約

さまざまなアプリケーションで広く利用されている生成モデルは、部分的なトークンに対応するプロンプトに対処できないことがよくあります。
この問題は、推論中に部分的なトークンが配布から外れ、不正確または無意味な出力につながるトークン化に起因します。
この論文では、生成モデルにおけるテキスト補完のトークン化アーティファクトを軽減し、通常の非サブワードの場合でもパフォーマンスを維持する手法を検討します。
トークン アライメントと呼ばれるこの方法には、最後の完全なトークンまで遡って、モデルの生成がプロンプトと一致していることを確認することが含まれます。
このアプローチは、わずかな時間の増加だけで、スペース接頭辞や部分的なインデントなどの微妙なケースを含む、多くの部分的なトークン シナリオで顕著な改善を示しています。
このホワイトペーパーで詳述する手法と分析は、部分入力の処理における生成モデルの継続的な進歩に貢献し、コード補完やテキスト自動補完などのアプリケーションとの関連性をもたらします。

要約(オリジナル)

Generative models, widely utilized in various applications, can often struggle with prompts corresponding to partial tokens. This struggle stems from tokenization, where partial tokens fall out of distribution during inference, leading to incorrect or nonsensical outputs. This paper examines a technique to alleviate the tokenization artifact on text completion in generative models, maintaining performance even in regular non-subword cases. The method, termed token alignment, involves backtracking to the last complete tokens and ensuring the model’s generation aligns with the prompt. This approach showcases marked improvement across many partial token scenarios, including nuanced cases like space-prefix and partial indentation, with only a minor time increase. The technique and analysis detailed in this paper contribute to the continuous advancement of generative models in handling partial inputs, bearing relevance for applications like code completion and text autocompletion.

arxiv情報

著者 Ben Athiwaratkun,Shiqi Wang,Mingyue Shang,Yuchen Tian,Zijian Wang,Sujan Kumar Gonugondla,Sanjay Krishna Gouda,Rob Kwiatowski,Ramesh Nallapati,Bing Xiang
発行日 2024-03-13 16:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク