BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models

要約

検索補強は、幻覚、陳腐化、プライバシー漏洩など、大規模言語モデルにおける多くの重大な問題に対処する。しかし、検索補強された言語モデル(LM)の実行は、大量の検索テキストを処理するために時間がかかり、スケールが難しい。我々はバイナリトークン表現(BTR)を導入し、1ビットベクトルを用いて文章中の全てのトークンを事前に計算することで、推論時の計算を大幅に削減する。精度が低下する可能性があるにもかかわらず、我々の新しい校正手法と学習目標により性能が回復する。オフライン圧縮と実行時圧縮を組み合わせることで、ウィキペディアの30億トークンをエンコードするのに必要なディスク容量は127GBで済む。我々の実験によれば、5つの知識集約的なNLPタスクにおいて、BTRは95%以上のタスク性能を維持しながら、最先端の推論を最大4倍高速化し、ストレージを100倍以上削減する。

要約(オリジナル)

Retrieval augmentation addresses many critical problems in large language models such as hallucination, staleness, and privacy leaks. However, running retrieval-augmented language models (LMs) is slow and difficult to scale due to processing large amounts of retrieved text. We introduce binary token representations (BTR), which use 1-bit vectors to precompute every token in passages, significantly reducing computation during inference. Despite the potential loss of accuracy, our new calibration techniques and training objectives restore performance. Combined with offline and runtime compression, this only requires 127GB of disk space for encoding 3 billion tokens in Wikipedia. Our experiments show that on five knowledge-intensive NLP tasks, BTR accelerates state-of-the-art inference by up to 4x and reduces storage by over 100x while maintaining over 95% task performance.

arxiv情報

著者 Qingqing Cao,Sewon Min,Yizhong Wang,Hannaneh Hajishirzi
発行日 2024-05-03 05:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク