Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model

要約

トランスフォーマーベースの大規模言語モデル (LLM) には、安全でない応答や信頼性の低い推論などの生成などの制限があります。既存の推論介入アプローチでは、追加のモデルを微調整して、LLM のデコード プロセスをガイドする調整信号 (報酬など) を生成することで、これらの問題を軽減しようとしています。

ただし、このソリューションでは別のモデルが必要になるため、かなりの時間とスペースのオーバーヘッドが発生します。
この研究では、無停止パラメータ挿入 (Otter) を提案しています。これは、元の LLM 出力とともに校正信号を予測するために、トランス アーキテクチャに追加のパラメータを挿入します。
Otter は、最大 86.5\% の追加スペースと 98.5\% の追加時間を節約しながら、複数の要求の厳しいタスクで最先端のパフォーマンスを提供します。
さらに、Otter は既存の推論エンジンとシームレスに統合されており、コードを 1 行変更するだけで済み、パラメーターの挿入後も元のモデル応答にアクセスできます。
私たちのコードは \url{https://github.com/chenhan97/Otter} で公開されています。

要約(オリジナル)

Transformer-based large language models (LLMs) exhibit limitations such as generating unsafe responses, unreliable reasoning, etc. Existing inference intervention approaches attempt to mitigate these issues by finetuning additional models to produce calibration signals (such as rewards) that guide the LLM’s decoding process. However, this solution introduces substantial time and space overhead due to the separate models required. This work proposes Non-disruptive parameters insertion (Otter), inserting extra parameters into the transformer architecture to predict calibration signals along with the original LLM output. Otter offers state-of-the-art performance on multiple demanding tasks while saving up to 86.5\% extra space and 98.5\% extra time. Furthermore, Otter seamlessly integrates with existing inference engines, requiring only a one-line code change, and the original model response remains accessible after the parameter insertion. Our code is publicly available at \url{https://github.com/chenhan97/Otter}

arxiv情報

著者 Chenhan Yuan,Fei Huang,Ru Peng,Keming Lu,Bowen Yu,Chang Zhou,Jingren Zhou
発行日 2024-08-20 12:00:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク