要約
大規模言語モデル (LLM) に関する解釈可能性研究の主な目的は、モデルを望ましい動作に向けて確実に操作する方法を開発することです。
この目的のために、解釈可能性に対する 2 つの異なるアプローチ、つまり「ボトムアップ」と「トップダウン」が提示されていますが、それらの間の定量的な比較はほとんど行われていません。
各ブランチからの代表的なベクトル ステアリング手法の有効性を比較したケース スタディを紹介します。ボトムアップ手法として関数ベクトル (FV; arXiv:2310.15213)、トップ手法としてインコンテキスト ベクトル (ICV; arXiv:2311.06668) です。
ダウン方式。
どちらも広範なコンテキスト内の学習タスクをコンパクトに表現することを目的としていますが、特定の種類のタスクでのみ効果的であることがわかりました。ICV は行動の変化において FV よりも優れていますが、FV はより正確さが必要なタスクにおいて優れています。
これらの結果を踏まえて、ステアリング手法の将来の評価と、トップダウンおよびボトムアップのステアリングに関するさらなる研究への影響について議論します。
要約(オリジナル)
A key objective of interpretability research on large language models (LLMs) is to develop methods for robustly steering models toward desired behaviors. To this end, two distinct approaches to interpretability — “bottom-up’ and “top-down’ — have been presented, but there has been little quantitative comparison between them. We present a case study comparing the effectiveness of representative vector steering methods from each branch: function vectors (FV; arXiv:2310.15213), as a bottom-up method, and in-context vectors (ICV; arXiv:2311.06668) as a top-down method. While both aim to capture compact representations of broad in-context learning tasks, we find they are effective only on specific types of tasks: ICVs outperform FVs in behavioral shifting, whereas FVs excel in tasks requiring more precision. We discuss the implications for future evaluations of steering methods and for further research into top-down and bottom-up steering given these findings.
arxiv情報
著者 | Madeline Brumley,Joe Kwon,David Krueger,Dmitrii Krasheninnikov,Usman Anwar |
発行日 | 2024-11-11 18:36:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google