Token-free LLMs Can Generate Chinese Classical Poetry with More Accurate Format

要約

微調整された大規模言語モデル (ChatGPT や Qwen-chat など) は、人間の指示に従って中国の古典詩を生成できます。
LLM はコンテンツでは良好に機能しますが、通常は形式が不足しており、各行の文字数が過剰または不足する場合があります。
ほとんどの SOTA LLM はトークンベースであるため、形式の不正確さは「トークン計画」タスクの難しさが原因であると想定します。つまり、LLM は各トークンに含まれる文字数を正確に把握し、長さ制御を行う必要があります。
その知識をもとに企画を立てます。
この論文では、まず既存のトークンベースの大規模言語モデルにはトークンと文字の関係に関する知識が限られていることを示すことで、私たちの仮定を確認します。
私たちはスペリングビープロービング手順を使用し、Qwen-chat が中国語のスペリングテストで 15% 近く不合格であることを発見しました。
次に、トークンベースのモデルをトークンフリーのモデル (中国語の観点から) に簡単に調整でき、形式の精度の問題を大幅に解決できることを示します。
私たちの調整手順では、語彙と言語モデルのヘッドから長いトークンが削除され、文字レベルまたはバイトレベルのトークンのみが保持されます。
私たちの貢献の一環として、微調整されたトークンフリー モデル (Qwen-chat-7B に基づく) をリリースしました。これは、LLM のような複雑な命令 (物語の言い換えなど) に従って中国の古典詩を生成でき、フォーマットでも適切に実行できます。

テスト セットでは、トークンフリー モデルのフォーマット精度は 0.96 でしたが、トークンベースの同等モデルでは 0.84、GPT-4 では 0.38 でした。

要約(オリジナル)

Finetuned large language models (such as ChatGPT and Qwen-chat) can generate Chinese classical poetry following human’s instructions. LLMs perform well in content, but are usually lacking in format, with occasionally excess or insufficient number of characters in each line. Since most SOTA LLMs are token-based, we assume that the format inaccuracy is due to the difficulty of the ‘token planning’ task, which means that the LLM need to know exactly how much characters are contained in each token and do length-control planning based on that knowledge. In this paper, we first confirm our assumption by showing that existing token-based large language models has limited knowledge on token-character relationship. We use a spelling bee probing procedure, and find that Qwen-chat failed in nearly 15% Chinese spelling test. We then show that a token-based model can be easily tailored into a token-free model (in terms of Chinese), which can largely solve the format accuracy problem. Our tailoring procedure removes long-tokens from the vocabulary and the language model head, and keeps only character-level or byte-level tokens. As part of our contribution, we release the finetuned token-free model (which is based on Qwen-chat-7B), which can generate chinese classical poetry following complex instructions like LLMs (such as story paraphrasing), and also perform well in format. On the test set, our token-free model achives an format accuracy of 0.96, compared to 0.84 for token-based equivalents and 0.38 for GPT-4.

arxiv情報

著者 Chengyue Yu,Lei Zang,Jiaotuan Wang,Chenyi Zhuang,Jinjie Gu
発行日 2024-01-09 03:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク