要約
ラージ・ランゲージ・モデル(LLM)は通常、時間の前方向を予測するように学習される。しかし、最近の研究により、LLMが自身の世代を振り返り、批評するよう促すことで、有用なフィードバックが得られることが示されている。このことに動機づけられ、我々は、LLMに後ろ向きに考える(予測し、スコアをつける)力を与え、前向きのLLMを補完する教師なしフィードバックを提供できるかという問題を探求する。これに向けて、我々は時間逆方向言語モデル(TRLM)を導入する。TRLMは、応答を条件としてスコア付けを行い、クエリを生成することができる。さらに、応答からクエリへの推測を効果的に行うために、トークン順序を逆にした言語モデル(TRLM-Ba)をゼロから事前学習し、微調整を行う。複数の順方向世代を再順位付けするためにクエリで与えられた応答をスコアリングするために使用される場合、時間反転モデルが実際に順方向モデルの予測を補完できることを経験的に(そして定型化された設定で理論的に)示す。我々は、広く使われているAlpacaEval Leaderboardにおいて、自己対数プレプレキシティスコアを用いたベストオブN再順位付けの有能なベースラインと比較して、最大5%の改善を得た。さらに、TRLMスコアリングが、与えられたクエリに対する従来の前方スコアリングを凌駕することを示し、その結果、引用文生成や文章検索などのアプリケーションにおいて大きな利益をもたらす。次に、TRLMの生成能力を活用し、LLMの入力安全フィルタに教師なしフィードバックを提供することで、人気のあるJailbreakBenchリーダーボードで公開されているいくつかの攻撃に対して、偽陽性率には無視できる程度の影響しか与えず、偽陰性率を劇的に減少させることを実証する。
要約(オリジナル)
Large Language Models (LLMs) are typically trained to predict in the forward direction of time. However, recent works have shown that prompting these models to look back and critique their own generations can produce useful feedback. Motivated by this, we explore the question of whether LLMs can be empowered to think (predict and score) backwards to provide unsupervised feedback that complements forward LLMs. Towards this, we introduce Time Reversed Language Models (TRLMs), which can score and generate queries when conditioned on responses, effectively functioning in the reverse direction of time. Further, to effectively infer in the response to query direction, we pre-train and fine-tune a language model (TRLM-Ba) in the reverse token order from scratch. We show empirically (and theoretically in a stylized setting) that time-reversed models can indeed complement forward model predictions when used to score the query given response for re-ranking multiple forward generations. We obtain up to 5\% improvement on the widely used AlpacaEval Leaderboard over the competent baseline of best-of-N re-ranking using self log-perplexity scores. We further show that TRLM scoring outperforms conventional forward scoring of response given query, resulting in significant gains in applications such as citation generation and passage retrieval. We next leverage the generative ability of TRLM to augment or provide unsupervised feedback to input safety filters of LLMs, demonstrating a drastic reduction in false negative rate with negligible impact on false positive rates against several attacks published on the popular JailbreakBench leaderboard.
arxiv情報
著者 | Yerram Varun,Rahul Madhavan,Sravanti Addepalli,Arun Suggala,Karthikeyan Shanmugam,Prateek Jain |
発行日 | 2024-12-03 17:54:12+00:00 |
arxivサイト | arxiv_id(pdf) |