要約
大規模言語モデル (LLM) は、さまざまなタスクで顕著なパフォーマンスを実証し、大きな注目を集めています。
LLM は、文法誤り訂正 (GEC) や形式スタイルの転送など、ソース テキスト内のほとんどのトークンが変更されないローカル シーケンス変換タスクにも使用されます。
ただし、ターゲット トークンの予測誤差が後続のトークンの予測に大惨事を引き起こす可能性があり、計算コストがターゲット シーケンスの長さに応じて二次関数的に増加するため、すべてのターゲット トークンを生成するのは非効率的です。
この論文では、ローカル シーケンス変換タスクのソース テキストに対する一連の編集操作を予測することを提案します。
編集操作をソース テキストと変更されたトークンの範囲で表すことで、ターゲット シーケンスの長さを削減し、推論の計算コストを削減できます。
編集操作の監視データに対してLLMの命令チューニングを適用します。
実験の結果、提案された方法は、ターゲットテキストの長さを 21% ほど短縮したにもかかわらず、言い換え、形式スタイルの変換、GEC、およびテキストの簡略化の 4 つのタスクにおいて、ベースラインと同等のパフォーマンスを達成することが示されました。
さらに提案手法による命令チューニングにより 4 つのタスクにおいて最先端の性能を達成したことを報告する。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable performance in various tasks and gained significant attention. LLMs are also used for local sequence transduction tasks, including grammatical error correction (GEC) and formality style transfer, where most tokens in a source text are kept unchanged. However, it is inefficient to generate all target tokens because a prediction error of a target token may cause a catastrophe in predicting subsequent tokens and because the computational cost grows quadratically with the target sequence length. This paper proposes to predict a set of edit operations for the source text for local sequence transduction tasks. Representing an edit operation with a span of the source text and changed tokens, we can reduce the length of the target sequence and thus the computational cost for inference. We apply instruction tuning for LLMs on the supervision data of edit operations. Experiments show that the proposed method achieves comparable performance to the baseline in four tasks, paraphrasing, formality style transfer, GEC, and text simplification, despite reducing the length of the target text by as small as 21\%. Furthermore, we report that the instruction tuning with the proposed method achieved the state-of-the-art performance in the four tasks.
arxiv情報
著者 | Masahiro Kaneko,Naoaki Okazaki |
発行日 | 2023-05-19 17:51:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google