Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation

要約

解釈可能性は、大規模言語モデル (LLM) の信頼を育む上での重要な課題です。これは、モデルのパラメーターから推論を抽出する複雑さに起因します。
我々は、マルチトークンワードをモデル化することによってLLMを解釈および制御するための、線形表現仮説(LRH)に基づいた理論的に堅牢なフレームワークであるフレーム表現仮説を提示します。
以前の研究では、LLM 表現を言語概念と結び付けるために LRH を検討していましたが、単一トークンの分析に限定されていました。
ほとんどの単語は複数のトークンで構成されているため、LRH をマルチトークン単語に拡張することで、数千の概念を含むあらゆるテキスト データでの使用が可能になります。
この目的のために、我々は、単語をフレーム、つまりトークンと単語の関係をよりよく捉えるベクトルの順序付けされたシーケンスとして解釈できることを提案します。
そして、概念は、共通の概念を共有する単語フレームの平均として表すことができる。
これらのツールは、選択した概念を使用してテキスト生成を直感的に操作できる Top-k コンセプトガイド デコーディングを通じて紹介されています。
私たちは、Llama 3.1、Gemma 2、および Phi 3 ファミリに関する上記のアイデアを検証し、性別と言語の偏見を実証し、有害なコンテンツを暴露しますが、それらを修正する可能性も示し、より安全で透明性の高い LLM につながります。
コードは https://github.com/phvv-me/frame-representation-仮説.git で入手できます。

要約(オリジナル)

Interpretability is a key challenge in fostering trust for Large Language Models (LLMs), which stems from the complexity of extracting reasoning from model’s parameters. We present the Frame Representation Hypothesis, a theoretically robust framework grounded in the Linear Representation Hypothesis (LRH) to interpret and control LLMs by modeling multi-token words. Prior research explored LRH to connect LLM representations with linguistic concepts, but was limited to single token analysis. As most words are composed of several tokens, we extend LRH to multi-token words, thereby enabling usage on any textual data with thousands of concepts. To this end, we propose words can be interpreted as frames, ordered sequences of vectors that better capture token-word relationships. Then, concepts can be represented as the average of word frames sharing a common concept. We showcase these tools through Top-k Concept-Guided Decoding, which can intuitively steer text generation using concepts of choice. We verify said ideas on Llama 3.1, Gemma 2, and Phi 3 families, demonstrating gender and language biases, exposing harmful content, but also potential to remediate them, leading to safer and more transparent LLMs. Code is available at https://github.com/phvv-me/frame-representation-hypothesis.git

arxiv情報

著者 Pedro H. V. Valois,Lincon S. Souza,Erica K. Shimomoto,Kazuhiro Fukui
発行日 2024-12-10 09:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク