要約
大規模な言語モデル(LMS)が進むにつれて、人間の価値(たとえば、解毒)または望ましい属性(パーソナライズ、トピックなど)に合わせて出力を制御する必要性が高まっています。
ただし、自動回帰モデルは、次のトークンの予測に焦点を当て、先を見据えたグローバルな特性と闘っています。
既存のソリューション新しい属性(高価で柔軟性のない各属性)のチューニングまたはポストトレインLMSのいずれか – または、サンプリングまたはトレーニングにより、将来のシーケンスの予想される属性確率(EAP)を近似します。
EAPを効率的に計算し、扱いやすい確率的推論と軽量制御を介して新しい属性に適応する新しいフレームワークであるTrace(適応可能な制御可能な生成のための扱いやすい確率的推論)を紹介します。
Traceは、LMから隠されたマルコフモデル(HMM)を蒸留し、小さな分類器とペアにして属性確率を推定し、HMMの予測された先物で正確なEAP計算を可能にします。
このEAPは、グローバルに準拠した継続のためのLMの次のトークン確率を再計量するために使用されます。
経験的に、TRACEは、オーバーヘッドが10%だけデコードされているだけで最先端の結果を達成し、数秒以内に76の低リソースのパーソナライズされたLLMに適応し、シームレスに複合属性に拡張されます。
要約(オリジナル)
As large language models (LMs) advance, there is an increasing need to control their outputs to align with human values (e.g., detoxification) or desired attributes (e.g., personalization, topic). However, autoregressive models focus on next-token predictions and struggle with global properties that require looking ahead. Existing solutions either tune or post-train LMs for each new attribute – expensive and inflexible – or approximate the Expected Attribute Probability (EAP) of future sequences by sampling or training, which is slow and unreliable for rare attributes. We introduce TRACE (Tractable Probabilistic Reasoning for Adaptable Controllable gEneration), a novel framework that efficiently computes EAP and adapts to new attributes through tractable probabilistic reasoning and lightweight control. TRACE distills a Hidden Markov Model (HMM) from an LM and pairs it with a small classifier to estimate attribute probabilities, enabling exact EAP computation over the HMM’s predicted futures. This EAP is then used to reweigh the LM’s next-token probabilities for globally compliant continuations. Empirically, TRACE achieves state-of-the-art results in detoxification with only 10% decoding overhead, adapts to 76 low-resource personalized LLMs within seconds, and seamlessly extends to composite attributes.
arxiv情報
著者 | Gwen Yidou Weng,Benjie Wang,Guy Van den Broeck |
発行日 | 2025-04-25 17:59:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google