要約
本論文では、ギブスサンプラーによってLLMの出力を精緻化し、後に精緻化されたモデルに蒸留する蒸留自己批評(dSC)を導入することで、RLAIFをベイズ推論として解釈することを提案する。合成データを必要とするだけで、dSCは安全性、感情、プライバシー制御に関する実験に用いられ、LLMを整列させるための実行可能で安価な代替手段になり得ることを示している。コードは୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)
要約(オリジナル)
This paper proposes an interpretation of RLAIF as Bayesian inference by introducing distilled Self-Critique (dSC), which refines the outputs of a LLM through a Gibbs sampler that is later distilled into a fine-tuned model. Only requiring synthetic data, dSC is exercised in experiments regarding safety, sentiment, and privacy control, showing it can be a viable and cheap alternative to align LLMs. Code released at \url{https://github.com/vicgalle/distilled-self-critique}.
arxiv情報
著者 | Victor Gallego |
発行日 | 2023-12-04 15:16:12+00:00 |
arxivサイト | arxiv_id(pdf) |