NL-ITI: Optimizing Probing and Intervention for Improvement of ITI Method

要約

大規模言語モデル (LLM) は、誤った情報を返す傾向があります。
これは AI 分野における大きな課題の 1 つです。
私たちの研究では、推論時間介入 (ITI) によって導入されたパラダイムを調査します。
第 1 段階では、必要な種類の知識 (真実など) を最も多く含む注目の対象を特定します。
その後、推論中に、LLM アクティベーションがアテンション ヘッドの選択されたサブセットに対してシフトされます。
私たちは、非線形プローブとマルチトークン介入である非線形 ITI (NL-ITI) を導入することにより、ITI フレームワークをさらに改善しました。
NL-ITI は、TruthfulQA を含むさまざまな多肢選択ベンチマークでテストされており、ベースライン ITI 結果と比較して MC1 メトリクスが約 14% 向上したと報告されています。
NL-ITI は、他のテストセットでも心強い結果を達成しています。MMLU のビジネス倫理サブドメインでは、ベースライン LLaMA2-7B に対して MC1 が約 18% 向上しています。
さらに、NL-ITI は、LLM の動作に対する侵襲性が低いと同時に、パフォーマンスが向上します (カルバックとライブラーの発散によって測定)。

要約(オリジナル)

Large Language Models (LLM) are prone to returning false information. It constitutes one of major challenges in the AI field. In our work, we explore paradigm introduced by Inference-Time-Intervention (ITI). In first stage, it identifies attention heads, which contain the highest amount of desired type of knowledge (e.g., truthful). Afterwards, during inference, LLM activations are shifted for chosen subset of attention heads. We further improved the ITI framework by introducing a nonlinear probing and multi-token intervention – Non-Linear ITI (NL-ITI). NL-ITI is tested on diverse multiple-choice benchmarks, including TruthfulQA, on which we report around 14% MC1 metric improvement with respect to the baseline ITI results. NL-ITI achieves also encouraging results on other testsets – on Business Ethics subdomain of MMLU, around 18% MC1 improvement over baseline LLaMA2-7B. Additionally, NL-ITI performs better while being less invasive in the behavior of LLM at the same time (as measured by Kullback-Leibler divergence).

arxiv情報

著者 Jakub Hoscilowicz,Adam Wiacek,Jan Chojnacki,Adam Cieslak,Leszek Michon,Vitalii Urbanevych,Artur Janicki
発行日 2024-03-27 15:22:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク