Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks

要約

Transformer ベースの NLP モデルは強力ですが、計算コストが高く、導入が制限されます。
微調整されたエンコーダ/デコーダ モデルは特殊な領域で人気があり、GPT-4 などのより大規模で一般化されたデコーダのみのモデルよりも優れたパフォーマンスを発揮します。
単一の共有入力に対して複数の出力が必要な構造化出力および分解可能なタスクの効率を向上させる、エンコーダー/デコーダー モデルの新しい構成を導入します。
私たちの手法であるプロンプトインデコーダー (PiD) は、入力を 1 回エンコードし、出力を並行してデコードします。これにより、重複した入力エンコードを回避し、演算強度 (メモリ アクセスに対する算術演算の回数の比率) を高めることで、トレーニングと推論の両方の効率が向上します。
入力キーと値のキャッシュを共有することで、デコード処理を簡素化します。
サブタスクの数にほぼ応じて計算量を削減し、対話状態の追跡、要約、質問応答タスクにおいて、同等以上のパフォーマンスで最先端のモデルと比較して最大 4.6 倍の高速化を実現します。

要約(オリジナル)

Transformer-based NLP models are powerful but have high computational costs that limit deployment. Finetuned encoder-decoder models are popular in specialized domains and can outperform larger more generalized decoder-only models, such as GPT-4. We introduce a new configuration for encoder-decoder models that improves efficiency on structured output and decomposable tasks where multiple outputs are required for a single shared input. Our method, prompt-in-decoder (PiD), encodes the input once and decodes the output in parallel, boosting both training and inference efficiency by avoiding duplicate input encoding and increasing the operational intensity (ratio of numbers of arithmetic operation to memory access) of decoding process by sharing the input key-value cache. We achieve computation reduction that roughly scales with the number of subtasks, gaining up to 4.6x speed-up over state-of-the-art models for dialogue state tracking, summarization, and question-answering tasks, with comparable or better performance.

arxiv情報

著者 Bo-Ru Lu,Nikita Haduong,Chien-Yu Lin,Hao Cheng,Noah A. Smith,Mari Ostendorf
発行日 2024-05-23 17:17:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク