Text Compression for Efficient Language Generation

要約

高品質のテキスト生成のために、LLMがサブワードトークンに完全に依存しなければならないという一般的な仮定に挑戦します。
この目的のために、テキストを文の埋め込みに圧縮し、文の注意メカニズムを採用することにより、テキスト生成が可能な階層的な変圧器言語モデルである「生成前の思考フォーマー」(GPTHF)を提案します。
GPTHFはGPTのアーキテクチャを保持し、動的スパースの注意マスクを介してトークン相互作用のみを変更します。
我々の実験は、GPTHFが、低サイズのレジームでの同等のサイズのGPTモデルと比較して、フロップ効率の最大数桁の改善とランタイム速度の3倍の増加を達成することを示しています。
これは、文の埋め込みをキャッシュおよび再利用する独自の生成方法を通じて達成され、入力の大部分がネットワークの大部分をバイパスすることができます。

要約(オリジナル)

We challenge the prevailing assumption that LLMs must rely fully on sub-word tokens for high-quality text generation. To this end, we propose the ‘Generative Pretrained Thoughtformer’ (GPTHF), a hierarchical transformer language model capable of text generation by compressing text into sentence embeddings and employing a sentence attention mechanism. GPTHF retains GPT’s architecture, modifying only token interactions via dynamic sparse attention masks. Our experiments show that GPTHF achieves an up to an order of magnitude improvement in FLOPs efficiency and a threefold increase in runtime speed compared to equally-sized GPT models in the low-size regime. This is achieved through a unique generation method that caches and reuses sentence embeddings, allowing significant portions of the input to bypass large parts of the network.

arxiv情報

著者 David Gu,Peter Belcak,Roger Wattenhofer
発行日 2025-03-14 14:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク