Learning to Compress Prompts with Gist Tokens

要約

タイトル:Gistトークンを使用したプロンプトの圧縮の学習
要約:

– プロンプトは、言語モデルの多機能性を利用するための主要な方法であり、再エンコードすることは計算効率が悪いため効率的でない。
– Finetuningと蒸留方法を使用することで、プロンプトなしでLMを特殊化できるが、各タスクのためにモデルを再トレーニングする必要がある。
– このトレードオフを完全に回避するために、プロンプトをより小さな「gist」トークンのセットに圧縮するLMをトレーニングする「gisting」方法を提案する。
– Gistモデルは、プロンプトの圧縮を促進する制限された注意マスクを使用して指示のFine-tuningの一部として簡単にトレーニングできる。
– デコーダー(LLaMA-7B)とエンコーダーデコーダー(FLAN-T5-XXL)LMに対して、Gistingによりプロンプトの最大26倍の圧縮が可能であり、最大40%のFLOPs削減、4.2%のウォールタイムスピードアップ、ストレージの節約、出力品質の最小損失がある。

要約(オリジナル)

Prompting is now the primary way to utilize the multitask capabilities of language models (LMs), but prompts occupy valuable space in the input context window, and re-encoding the same prompt is computationally inefficient. Finetuning and distillation methods allow for specialization of LMs without prompting, but require retraining the model for each task. To avoid this trade-off entirely, we present gisting, which trains an LM to compress prompts into smaller sets of ‘gist’ tokens which can be reused for compute efficiency. Gist models can be easily trained as part of instruction finetuning via a restricted attention mask that encourages prompt compression. On decoder (LLaMA-7B) and encoder-decoder (FLAN-T5-XXL) LMs, gisting enables up to 26x compression of prompts, resulting in up to 40% FLOPs reductions, 4.2% wall time speedups, storage savings, and minimal loss in output quality.

arxiv情報

著者 Jesse Mu,Xiang Lisa Li,Noah Goodman
発行日 2023-04-17 17:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク