GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens in Large Language Models

要約

大規模言語モデル (LLM) は、自然言語処理の分野で前例のない成功を収めています。
しかし、その内部メカニズムのブラックボックス的な性質により、その信頼性と解釈可能性について多くの懸念が生じています。
最近の研究では、モデルの語彙空間内に異常なトークンのクラスが発見され、それらを「グリッチ トークン」と名付けられました。
これらのトークンが入力に含まれると、モデルが不正確、無関係、さらには有害な結果を生成する可能性があり、LLM の信頼性と実用性が大幅に損なわれる可能性があります。
この研究では、グリッチ トークンの理解を深め、その検出と軽減のための手法を提案することを目的としています。
まず、LLM 上のグリッチ トークンによって引き起こされる特徴を明らかにします。これは、注意パターンの分布と中間モデル層からの動的情報の大幅な逸脱によって証明されます。
この洞察に基づいて、効率的なグリッチ トークンの検出と軽減のためのツールである GlitchProber を開発します。
GlitchProber は、小規模サンプリング、主成分分析を利用して特徴抽出を加速し、単純な分類器を利用して効率的な語彙スクリーニングを行います。
さらに一歩進んで、GlitchProber は異常なモデル中間層の値を修正して、グリッチ トークンの破壊的な影響を軽減します。
5 つの主流のオープンソース LLM で評価した GlitchProber は、既存のアプローチと比較して効率、精度、リコールが高く、平均 F1 スコアは 0.86、平均修復率は 50.06% であることが実証されました。
GlitchProber は、グリッチ トークンによってもたらされる課題に対処するための新しい道を明らかにし、より堅牢で解釈可能な LLM に向けた将来の研究を刺激します。

要約(オリジナル)

Large language models (LLMs) have achieved unprecedented success in the field of natural language processing. However, the black-box nature of their internal mechanisms has brought many concerns about their trustworthiness and interpretability. Recent research has discovered a class of abnormal tokens in the model’s vocabulary space and named them ‘glitch tokens’. Those tokens, once included in the input, may induce the model to produce incorrect, irrelevant, or even harmful results, drastically undermining the reliability and practicality of LLMs. In this work, we aim to enhance the understanding of glitch tokens and propose techniques for their detection and mitigation. We first reveal the characteristic features induced by glitch tokens on LLMs, which are evidenced by significant deviations in the distributions of attention patterns and dynamic information from intermediate model layers. Based on the insights, we develop GlitchProber, a tool for efficient glitch token detection and mitigation. GlitchProber utilizes small-scale sampling, principal component analysis for accelerated feature extraction, and a simple classifier for efficient vocabulary screening. Taking one step further, GlitchProber rectifies abnormal model intermediate layer values to mitigate the destructive effects of glitch tokens. Evaluated on five mainstream open-source LLMs, GlitchProber demonstrates higher efficiency, precision, and recall compared to existing approaches, with an average F1 score of 0.86 and an average repair rate of 50.06%. GlitchProber unveils a novel path to address the challenges posed by glitch tokens and inspires future research toward more robust and interpretable LLMs.

arxiv情報

著者 Zhibo Zhang,Wuxia Bai,Yuxi Li,Mark Huasong Meng,Kailong Wang,Ling Shi,Li Li,Jun Wang,Haoyu Wang
発行日 2024-08-09 07:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク