FastMem: Fast Memorization of Prompt Improves Context Awareness of Large Language Models

要約

大規模言語モデル(LLM)は首尾一貫したテキストを生成することに優れているが、文脈認識にしばしば苦戦する。我々はFastMemを紹介する。FastMemは、プロンプトを高速に記憶することにより、微調整されたLLMの文脈認識を強化するように設計された新しい手法である。FastMemは、最後のFeed-Forward Network (FFN)モジュールのみを微調整することで、推論前のプロンプトの尤度を最大化する。この的を絞ったアプローチは、オーバーフィッティングすることなく効率的な最適化を保証し、文脈を理解し正確に従うモデルの能力を大幅に向上させる。我々の実験では、読解力、テキストの要約、出力構造への忠実性が大幅に向上することが実証された。例えば、FastMemはNQ-SWAPデータセットにおけるLlama 3-8B-Instの精度を59.1%から71.6%に向上させ、Qwen 1.5-4B-Chatの出力構造の失敗率を34.9%から25.5%に低減します。広範な実験結果は、様々なアプリケーションにおけるLLMの信頼性と精度を向上させる堅牢なソリューションを提供するFastMemの可能性を強調しています。私たちのコードは、https://github.com/IAAR-Shanghai/FastMem で入手可能です。

要約(オリジナル)

Large language models (LLMs) excel in generating coherent text, but they often struggle with context awareness, leading to inaccuracies in tasks requiring faithful adherence to provided information. We introduce FastMem, a novel method designed to enhance instruction fine-tuned LLMs’ context awareness through fast memorization of the prompt. FastMem maximizes the likelihood of the prompt before inference by fine-tuning only the last Feed-Forward Network (FFN) module. This targeted approach ensures efficient optimization without overfitting, significantly improving the model’s ability to comprehend and accurately follow the context. Our experiments demonstrate substantial gains in reading comprehension, text summarization and adherence to output structures. For instance, FastMem improves the accuracy of Llama 3-8B-Inst on the NQ-SWAP dataset from 59.1% to 71.6%, and reduces the output structure failure rate of Qwen 1.5-4B-Chat from 34.9% to 25.5%. Extensive experimental results highlight FastMem’s potential to offer a robust solution to enhance the reliability and accuracy of LLMs in various applications. Our code is available at: https://github.com/IAAR-Shanghai/FastMem

arxiv情報

著者 Junyi Zhu,Shuochen Liu,Yu Yu,Bo Tang,Yibo Yan,Zhiyu Li,Feiyu Xiong,Tong Xu,Matthew B. Blaschko
発行日 2024-09-02 09:13:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク