要約
Bitune を紹介します。これは、事前トレーニングされたデコーダーのみの大規模言語モデルの命令チューニングを改善し、下流のタスクで一貫した利益をもたらします。
Bitune は、プロンプトに対して因果関係と双方向の両方の注意を適用して、クエリまたは指示をより適切に表現します。
これは、2 セットのパラメーターを導入することで実現され、パラメーター効率の高い微調整手法を適用します。
これらの因果的および双方向の特徴は、トレーニング可能な係数を使用して加重平均に結合され、その後、新しいトークンの生成に使用されます。
私たちは、常識的な推論、算術、および言語理解タスクにおけるゼロショット パフォーマンスの大幅な向上を実証するとともに、広範なアブレーション研究により各コンポーネントの役割を検証し、さまざまな PEFT 手法に対するメソッドの不可知論性を実証しています。
要約(オリジナル)
We introduce Bitune, a method that improves instruction-tuning of pretrained decoder-only large language models, leading to consistent gains on downstream tasks. Bitune applies both causal and bidirectional attention to the prompt, to obtain a better representation of the query or instruction. We realize this by introducing two sets of parameters, for which we apply parameter-efficient finetuning techniques. These causal and bidirectional features are then combined into a weighted average with trainable coefficients, which is subsequently used to generate new tokens. We demonstrate significant improvements in zero-shot performance on commonsense reasoning, arithmetic, and language understanding tasks, while extensive ablation studies validate the role of each component and demonstrate the method’s agnosticism to different PEFT techniques.
arxiv情報
| 著者 | Dawid J. Kopiczko,Tijmen Blankevoort,Yuki M. Asano |
| 発行日 | 2024-05-23 17:59:22+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google