Mitigating the Influence of Distractor Tasks in LMs with Prior-Aware Decoding

要約

言語モデル (LM) の広範な機能は、気を散らすタスクに対する感度によって制限される可能性があります。LM は、意図されたタスクに加えてプロンプトから二次的なタスクを推測し、望ましくない出力につながる可能性があります。
たとえば、プロンプト インジェクション攻撃により、モデルが明示的なディレクティブから逸脱する可能性があります。
一部の「逆スケーリング」ケースでは、モデルが少なくとも 540B パラメーターまでスケールアップするにつれて、この望ましくない動作が実際に悪化します。
我々は、LM を複数のデータ生成プロセスを組み合わせた専門家の成果物として解釈する理論的枠組みを提示します。
このフレームワークに基づいて、事前認識デコーディング (PAD)、つまり注意をそらすタスクの影響を軽減するための単純な対照的推論方法を実証します。
4 つのデータセットにわたる 11 のモデルに PAD を適用したところ、44 のタスクとモデルの組み合わせのうち 41 で改善が見られ、タスク完了率の中央値は 40% 増加しました。
この結果は、より信頼性の高い言語モデルに向けたさらなる開発の有望な方向性を示唆しています。

要約(オリジナル)

The broad capabilities of Language Models (LMs) can be limited by their sensitivity to distractor tasks: LMs can infer secondary tasks from the prompt in addition to the intended one, leading to unwanted outputs. For example, prompt injection attacks can cause models to deviate from explicit directives. In some ‘inverse scaling’ cases, this unwanted behaviour actually worsens as models scale up to at least 540B parameters. We present a theoretical framework that interprets LMs as a product of experts that combine multiple data generation processes. Based on this framework, we demonstrate prior-aware decoding (PAD) – a simple contrastive inference method to reduce the influence of distractor tasks. We apply PAD to eleven models, across four datasets, and find improvements in 41 out of 44 task-model combinations, with a median increase in task completion proportion of 40%. The results suggest a promising direction for further development towards more reliable language models.

arxiv情報

著者 Raymond Douglas,Andis Draguns,Tomáš Gavenčiak
発行日 2024-09-10 17:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク