Bitune: Bidirectional Instruction-Tuning

要約

Bitune を紹介します。これは、事前トレーニングされたデコーダーのみの大規模言語モデルの命令チューニングを改善し、下流のタスクで一貫した利益をもたらします。
Bitune は、プロンプトに対して因果関係と双方向の両方の注意を適用して、クエリまたは指示をより適切に表現します。
これは、2 セットのパラメーターを導入することで実現され、パラメーター効率の高い微調整手法を適用します。
これらの因果的および双方向の特徴は、トレーニング可能な係数を使用して加重平均に結合され、その後、新しいトークンの生成に使用されます。
私たちは、常識的な推論、算術、および言語理解タスクにおけるゼロショット パフォーマンスの大幅な向上を実証するとともに、広範なアブレーション研究により各コンポーネントの役割を検証し、さまざまな PEFT 手法に対するメソッドの不可知論性を実証しています。

要約(オリジナル)

We introduce Bitune, a method that improves instruction-tuning of pretrained decoder-only large language models, leading to consistent gains on downstream tasks. Bitune applies both causal and bidirectional attention to the prompt, to obtain a better representation of the query or instruction. We realize this by introducing two sets of parameters, for which we apply parameter-efficient finetuning techniques. These causal and bidirectional features are then combined into a weighted average with trainable coefficients, which is subsequently used to generate new tokens. We demonstrate significant improvements in zero-shot performance on commonsense reasoning, arithmetic, and language understanding tasks, while extensive ablation studies validate the role of each component and demonstrate the method’s agnosticism to different PEFT techniques.

arxiv情報

著者 Dawid J. Kopiczko,Tijmen Blankevoort,Yuki M. Asano
発行日 2024-05-23 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク