Sparse Autoencoders for Hypothesis Generation

要約

テキストデータ(見出しなど)とターゲット変数(たとえば、クリック)との間の解釈可能な関係を仮定する一般的な方法である仮説について説明します。
仮説には3つのステップがあります。(1)テキスト埋め込みでスパースオートエンコーダーをトレーニングして、データ分布を説明する解釈可能な機能を作成し、(2)ターゲット変数を予測する選択機能、(3)LLMを使用して各機能の自然な言語解釈(驚きまたはショックを受けた」)を生成します。
各解釈は、ターゲット変数を予測するものについての仮説として機能します。
ベースラインと比較して、私たちの方法は、合成データセットの参照仮説をよりよく識別し(F1で少なくとも+0.06)、最近のLLMベースの方法よりも1〜2桁の計算量が少ないにもかかわらず、実際のデータセットでより予測的な仮説(〜の2倍の重要な結果)を生成します。
仮説はまた、2つのよく研究されたタスクで新しい発見を生み出します。議会のスピーチの党派的な違いを説明し、オンライン見出しとの関与の要因を特定します。

要約(オリジナル)

We describe HypotheSAEs, a general method to hypothesize interpretable relationships between text data (e.g., headlines) and a target variable (e.g., clicks). HypotheSAEs has three steps: (1) train a sparse autoencoder on text embeddings to produce interpretable features describing the data distribution, (2) select features that predict the target variable, and (3) generate a natural language interpretation of each feature (e.g., ‘mentions being surprised or shocked’) using an LLM. Each interpretation serves as a hypothesis about what predicts the target variable. Compared to baselines, our method better identifies reference hypotheses on synthetic datasets (at least +0.06 in F1) and produces more predictive hypotheses on real datasets (~twice as many significant findings), despite requiring 1-2 orders of magnitude less compute than recent LLM-based methods. HypotheSAEs also produces novel discoveries on two well-studied tasks: explaining partisan differences in Congressional speeches and identifying drivers of engagement with online headlines.

arxiv情報

著者 Rajiv Movva,Kenny Peng,Nikhil Garg,Jon Kleinberg,Emma Pierson
発行日 2025-03-18 17:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク