Characterizing Large Language Model Geometry Solves Toxicity Detection and Generation

要約

大規模言語モデル(LLM)は、その内部表現、例えば、様々な下流タスクを解決するための少数の有益な特徴を抽出する方法についてほとんど知られていないにもかかわらず、現在のAIの飛躍的進歩を牽引している。実用的かつ原理的な答えを提供するために、我々は幾何学的な観点からLLMを特徴付けることを提案する。我々は、(i)マルチヘッドアテンション埋め込みが存在することを制約される固有次元と、(ii)レイヤー毎のフィードフォワードネットワークのパーティションと領域毎のアフィンマッピングを閉じた形で得る。我々の結果は有益であり、近似に頼ることなく、実行可能である。まず、幾何学的解釈を動機として、Llama$2$のRLHFを迂回することができることを示す。第二に、どの(事前に訓練された)LLM層からも抽出できる、7$の解釈可能なスプライン特徴を導出し、その入力の豊富な抽象表現を提供する。これらの特徴量(Mistral-7BとLlama$2$-7Bで$224$)だけで、毒性検出の解決、プロンプトのドメインの推測、さらには様々なプロンプトの毒性のタイプを特徴付けることを目的としたジグソーパズルの課題に取り組むのに十分である。我々の結果は、大規模な領域においても、厳密な理論結果が言語モデルにおける実用的な問題にいかに答えられるかを示している。コード\https://github.com/RandallBalestriero/SplineLLM}。

要約(オリジナル)

Large Language Models~(LLMs) drive current AI breakthroughs despite very little being known about their internal representations, e.g., how to extract a few informative features to solve various downstream tasks. To provide a practical and principled answer, we propose to characterize LLMs from a geometric perspective. We obtain in closed form (i) the intrinsic dimension in which the Multi-Head Attention embeddings are constrained to exist and (ii) the partition and per-region affine mappings of the per-layer feedforward networks. Our results are informative, do not rely on approximations, and are actionable. First, we show that, motivated by our geometric interpretation, we can bypass Llama$2$’s RLHF by controlling its embedding’s intrinsic dimension through informed prompt manipulation. Second, we derive $7$ interpretable spline features that can be extracted from any (pre-trained) LLM layer, providing a rich abstract representation of their inputs. Those features alone ($224$ for Mistral-7B and Llama$2$-7B) are sufficient to help solve toxicity detection, infer the domain of the prompt, and even tackle the Jigsaw challenge, which aims at characterizing the type of toxicity of various prompts. Our results demonstrate how, even in large-scale regimes, exact theoretical results can answer practical questions in language models. Code: \url{https://github.com/RandallBalestriero/SplineLLM}.

arxiv情報

著者 Randall Balestriero,Romain Cosentino,Sarath Shekkizhar
発行日 2023-12-04 06:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク