Meta-Models: An Architecture for Decoding LLM Behaviors Through Interpreted Embeddings and Natural Language

要約

大規模言語モデル (LLM) が私たちの日常生活にますます組み込まれるようになるにつれて、欺瞞的な行為による潜在的な害が、その意思決定を忠実に解釈する必要性の根底にあります。
従来の調査方法はある程度の有効性を示していますが、より包括的な説明が依然として必要な一方で、狭い範囲のタスクには依然として最適です。
この目的を達成するために、私たちはメタモデル、つまり「入力モデル」からアクティベーションを取得し、入力モデルの動作に関する自然言語の質問に答える「メタモデル」を使用するアーキテクチャを調査します。
選択したタスクタイプでメタモデルをトレーニングし、欺瞞的なシナリオでの分布外のパフォーマンスを評価することで、メタモデルの一般化能力を評価します。
私たちの調査結果は、メタモデルが分布外のタスクによく一般化し、この分野での将来の研究の機会を示していることを示しています。
私たちのコードは https://github.com/acostarelli/meta-models-public で入手できます。

要約(オリジナル)

As Large Language Models (LLMs) become increasingly integrated into our daily lives, the potential harms from deceptive behavior underlie the need for faithfully interpreting their decision-making. While traditional probing methods have shown some effectiveness, they remain best for narrowly scoped tasks while more comprehensive explanations are still necessary. To this end, we investigate meta-models-an architecture using a ‘meta-model’ that takes activations from an ‘input-model’ and answers natural language questions about the input-model’s behaviors. We evaluate the meta-model’s ability to generalize by training them on selected task types and assessing their out-of-distribution performance in deceptive scenarios. Our findings show that meta-models generalize well to out-of-distribution tasks and point towards opportunities for future research in this area. Our code is available at https://github.com/acostarelli/meta-models-public .

arxiv情報

著者 Anthony Costarelli,Mat Allen,Severin Field
発行日 2024-11-07 18:30:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク