LLM Braces: Straightening Out LLM Predictions with Relevant Sub-Updates

要約

最近の発見は、変圧器ベースの大手言語モデル(LLM)の知識の多くがそのフィードフォワード(FFN)層にエンコードされていることを明らかにしています。そこでは、各FNN層は、それぞれが人間の概念的概念をエンコードするFFNの値パラメーターマトリックスからの加重列ベクトルに対応するサブアップデートの合計として解釈できます。
これに照らして、入力またはターゲットの出力スタイルに関連するこれらのサブアップデートの貢献を調整することにより、モデルのパフォーマンスと動作をさらに強化および制御できると仮定し、LLMBRACES、FFN層の価値ベクターに関連する関連スコアを計算する斬新で効率的な方法を提案し、これらのスコアをダイナミックに調整するためにこれらのスコアを調整します。
サブアップデートの寄付を最適化することにより、LLMBRACESは予測プロセスを改良し、サポートと安定性を提供する「ブレース」と同じように、より正確で信頼性の高い出力につながります。
さらに、LLMBRACESを拡張して、センチメントなどの生成特性に対する条件付き制御をサポートするため、LLM出力の細粒ステアリングを提供できます。
QWEN2.5-1.5B、LLAMA2-7B、およびLLAMA3-8Bを含むさまざまなLLMSを含む広範な実験は、LLMBRACesが微調整とゼロショットの両方の設定でベースラインアプローチを上回りながら、有意に少数の調整可能なパラメーターを必要とし、LORAを比較して比較します。
さらに、LLMBRACESは感情制御された世代と毒性低下に優れており、アプリケーション全体で柔軟で制御されたテキスト生成の可能性を強調しています。

要約(オリジナル)

Recent findings reveal that much of the knowledge in a Transformer-based Large Language Model (LLM) is encoded in its feed-forward (FFN) layers, where each FNN layer can be interpreted as the summation of sub-updates, each corresponding to a weighted column vector from the FFN’s value parameter matrix that often encodes human-interpretable concepts. In light of this, we hypothesize that model performance and behaviors can be further enhanced and controlled by modulating the contributions of these sub-updates based on their relevance to the input or target output style, and propose LLMBRACES, a novel and efficient method that computes relevance scores associated with value vectors in FFN layers and leverages these scores to dynamically adjust the contribution of sub-updates. By optimizing sub-update contributions, LLMBRACES refines the prediction process, leading to more accurate and reliable outputs, much like a ‘brace’ providing support and stability. Moreover, LLMBRACES can be extended to support conditional control over generation characteristics, such as sentiment, thereby offering fine-grained steering of LLM outputs. Extensive experiments on various LLMs-including Qwen2.5-1.5B, Llama2-7B, and Llama3-8B-demonstrate that LLMBRACES outperforms baseline approaches in both fine-tuning and zero-shot settings while requiring significantly fewer tunable parameters, up to 75% fewer compared to LoRA. Furthermore, LLMBRACES excels in sentiment-controlled generation and toxicity reduction, highlighting its potential for flexible, controlled text generation across applications.

arxiv情報

著者 Ying Shen,Lifu Huang
発行日 2025-03-20 16:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク