Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models

要約

私たちは、さまざまなモデルが中間層の潜在空間で概念をどのように同様に表現するかを理解することを目的とした研究分野である大規模言語モデル (LLM) における機能の普遍性を調査します。
特徴の普遍性を実証することで、潜在表現に関する発見を複数のモデルにわたって一般化することができます。
ただし、個々のニューロンが個別の特徴ではなく複数の特徴に対応することが多いため、LLM 間で特徴を比較することは困難です。
このため、さまざまなモデル間で機能を解きほぐして一致させることが困難になります。
この問題に対処するために、スパース オートエンコーダ (SAE) を使用して LLM の活性化を個々の特徴に対応するニューロンがまたがるより解釈可能な空間に変換する辞書学習として知られる方法を採用します。
活性化相関を介してモデル間で特徴ニューロンを照合した後、特異値正準相関分析などの表現空間類似性メトリクスを適用して、異なる LLM 間でこれらの SAE 特徴を分析します。
私たちの実験では、さまざまな LLM にわたる SAE 特徴空間の顕著な類似性が明らかになり、特徴の普遍性の新たな証拠が得られました。

要約(オリジナル)

We investigate feature universality in large language models (LLMs), a research field that aims to understand how different models similarly represent concepts in the latent spaces of their intermediate layers. Demonstrating feature universality allows discoveries about latent representations to generalize across several models. However, comparing features across LLMs is challenging due to polysemanticity, in which individual neurons often correspond to multiple features rather than distinct ones. This makes it difficult to disentangle and match features across different models. To address this issue, we employ a method known as dictionary learning by using sparse autoencoders (SAEs) to transform LLM activations into more interpretable spaces spanned by neurons corresponding to individual features. After matching feature neurons across models via activation correlation, we apply representational space similarity metrics like Singular Value Canonical Correlation Analysis to analyze these SAE features across different LLMs. Our experiments reveal significant similarities in SAE feature spaces across various LLMs, providing new evidence for feature universality.

arxiv情報

著者 Michael Lan,Philip Torr,Austin Meek,Ashkan Khakzar,David Krueger,Fazl Barez
発行日 2024-10-09 15:18:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

GPT-4V Cannot Generate Radiology Reports Yet

要約

GPT-4V は強力なマルチモーダル機能があるとされており、放射線科レポート作成の自動化に GPT-4V を使用することに関心が集まっていますが、完全な評価は行われていません。
この研究では、MIMIC-CXR と IU X 線という 2 つの胸部 X 線レポート データセットに関する放射線医学レポートを生成する際に、GPT-4V の体系的な評価を実行します。
私たちは、さまざまなプロンプト戦略を通じて GPT-4V を使用してレポートを直接生成しようとしましたが、語彙指標と臨床有効性指標の両方でひどく失敗することがわかりました。
パフォーマンスの低さを理解するために、タスクを 2 つのステップに分解します。1) 画像から病状ラベルを予測する医用画像推論ステップ。
2) (グラウンドトゥルース) 条件からレポートを生成するレポート合成ステップ。
画像推論における GPT-4V のパフォーマンスは、さまざまなプロンプトにわたって一貫して低いことがわかります。
実際、モデルが予測したラベルの分布は、画像上にどのようなグラウンドトゥルース条件が存在するかに関係なく一定のままであり、モデルが胸部 X 線写真を有意義に解釈していないことを示唆しています。
レポート合成でグラウンドトゥルース条件が与えられた場合でも、生成されるレポートは、微調整された LLaMA-2 よりも正確性が低く、不自然な響きになります。
まとめると、私たちの調査結果は、放射線科ワークフローにおける GPT-4V の使用の実現可能性に疑問を投げかけています。

要約(オリジナル)

GPT-4V’s purported strong multimodal abilities raise interests in using it to automate radiology report writing, but there lacks thorough evaluations. In this work, we perform a systematic evaluation of GPT-4V in generating radiology reports on two chest X-ray report datasets: MIMIC-CXR and IU X-Ray. We attempt to directly generate reports using GPT-4V through different prompting strategies and find that it fails terribly in both lexical metrics and clinical efficacy metrics. To understand the low performance, we decompose the task into two steps: 1) the medical image reasoning step of predicting medical condition labels from images; and 2) the report synthesis step of generating reports from (groundtruth) conditions. We show that GPT-4V’s performance in image reasoning is consistently low across different prompts. In fact, the distributions of model-predicted labels remain constant regardless of which groundtruth conditions are present on the image, suggesting that the model is not interpreting chest X-rays meaningfully. Even when given groundtruth conditions in report synthesis, its generated reports are less correct and less natural-sounding than a finetuned LLaMA-2. Altogether, our findings cast doubt on the viability of using GPT-4V in a radiology workflow.

arxiv情報

著者 Yuyang Jiang,Chacha Chen,Dang Nguyen,Benjamin M. Mervak,Chenhao Tan
発行日 2024-10-09 15:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | コメントする

MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models

要約

事前トレーニング + 微調整パラダイムは、さまざまなダウンストリーム アプリケーションにわたって大規模言語モデル (LLM) を展開するための基礎です。
このフレームワーク内で、低ランク適応 (LoRA) はパラメーター効率の高い微調整 (PEFT) で際立っており、再利用可能なタスク固有の LoRA アダプターを多数生成します。
ただし、このアプローチには明示的なタスク意図の選択が必要であり、単一の LLM に組み込まれた複数の既存の LoRA アダプターによる推論中の自律的なタスクの検出と切り替えに課題が生じます。
この作業では、フルモードの Mixture-of-Experts (MoE) アーキテクチャを介して複数のタスク固有の LoRA アダプタをベース LLM に再利用する、スケーラブルで効率的なフレームワークである MeteoRA (Multiple-tasksembedded LoRA) を導入します。
このフレームワークには、従来の MoE 実装の効率性の課題に対処するための、新しい MoE の前進加速戦略も含まれています。
MeteoRA を介して 28 個の既存の LoRA アダプターを搭載した LlaMA2-13B および LlaMA3-8B ベース モデルを使用した評価では、従来の PEFT 手法と同等のパフォーマンスが実証されました。
さらに、MeteoRA を搭載した LLM は、複合タスクの処理において優れたパフォーマンスを実現し、1 つの推論パスで 10 個の連続した問題を効果的に解決し、タイムリーなアダプター切り替えに対するフレームワークの強化された機能を実証します。

要約(オリジナル)

The pretrain+fine-tune paradigm is foundational for deploying large language models (LLMs) across various downstream applications. Within this framework, Low-Rank Adaptation (LoRA) stands out for its parameter-efficient fine-tuning (PEFT), producing numerous reusable task-specific LoRA adapters. However, this approach requires explicit task intention selection, posing challenges for autonomous task sensing and switching during inference with multiple existing LoRA adapters embedded in a single LLM. In this work, we introduce MeteoRA (Multiple-tasks embedded LoRA), a scalable and efficient framework that reuses multiple task-specific LoRA adapters into the base LLM via a full-mode Mixture-of-Experts (MoE) architecture. This framework also includes novel MoE forward acceleration strategies to address the efficiency challenges of traditional MoE implementations. Our evaluation, using the LlaMA2-13B and LlaMA3-8B base models equipped with 28 existing LoRA adapters through MeteoRA, demonstrates equivalent performance with the traditional PEFT method. Moreover, the LLM equipped with MeteoRA achieves superior performance in handling composite tasks, effectively solving ten sequential problems in a single inference pass, thereby demonstrating the framework’s enhanced capability for timely adapter switching.

arxiv情報

著者 Jingwei Xu,Junyu Lai,Yunpeng Huang
発行日 2024-10-09 15:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | コメントする

CursorCore: Assist Programming through Aligning Anything

要約

大規模な言語モデルは、コード補完、コード挿入、命令コード編集などのプログラミング支援タスクにうまく適用されています。
しかし、これらのアプリケーションは依然として自動化が不十分であり、コーディング履歴、現在のコード、ユーザー指示など、プログラミング プロセス中にさまざまな種類の情報を効果的に統合するのに苦労しています。
この研究では、これらの情報ソースを包括的に統合し、データを収集してモデルをトレーニングし、そのパフォーマンスを評価する新しい会話フレームワークを提案します。
まず、モデルがさまざまな種類の情報とどの程度整合しているか、およびその出力の品質を徹底的に評価するために、プログラミング支援タスクにおけるモデルのパフォーマンスを包括的に評価するための新しいベンチマーク APEval (Assist Programming Eval) を導入します。
次に、データ収集のために、GitHub やオンライン裁判官プラットフォームなどのさまざまなソースからトレーニング データを合成するデータ生成パイプライン Programming-Instruct を開発します。
このパイプラインは、プログラミング プロセス全体を通じてさまざまなタイプのメッセージを自動的に生成できます。
最後に、このパイプラインを使用して 219K のサンプルを生成し、複数のモデルを微調整して、CursorCore シリーズを開発します。
CursorCore が同等のサイズの他のモデルよりも優れていることがわかります。
このフレームワークはインラインチャットや自動編集などのアプリケーションを統合し、コーディングアシスタントの進化に貢献します。
コード、モデル、データは https://github.com/TechxGenus/CursorCore から自由に入手できます。

要約(オリジナル)

Large language models have been successfully applied to programming assistance tasks, such as code completion, code insertion, and instructional code editing. However, these applications remain insufficiently automated and struggle to effectively integrate various types of information during the programming process, including coding history, current code, and user instructions. In this work, we propose a new conversational framework that comprehensively integrates these information sources, collect data to train our models and evaluate their performance. Firstly, to thoroughly evaluate how well models align with different types of information and the quality of their outputs, we introduce a new benchmark, APEval (Assist Programming Eval), to comprehensively assess the performance of models in programming assistance tasks. Then, for data collection, we develop a data generation pipeline, Programming-Instruct, which synthesizes training data from diverse sources, such as GitHub and online judge platforms. This pipeline can automatically generate various types of messages throughout the programming process. Finally, using this pipeline, we generate 219K samples, fine-tune multiple models, and develop the CursorCore series. We show that CursorCore outperforms other models of comparable size. This framework unifies applications such as inline chat and automated editing, contributes to the advancement of coding assistants. Code, models and data are freely available at https://github.com/TechxGenus/CursorCore.

arxiv情報

著者 Hao Jiang,Qi Liu,Rui Li,Shengyu Ye,Shijin Wang
発行日 2024-10-09 15:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | コメントする

Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation

要約

特許ドメインは自然言語処理研究で注目を集めており、特許取得プロセスの合理化における実用的な応用を提供し、大規模言語モデル (LLM) に挑戦的なベンチマークを提供します。
しかし、特許文書の90%以上を占める特許明細書の生成については、これまで検討されていなかった。
私たちは、アウトラインに基づいた論文から特許への生成というタスクを導入することで、このギャップに対処します。学術論文は発明の技術仕様を提供し、アウトラインは望ましい特許構造を伝えます。
我々は、典型的な研究室の実践を反映したヒューリスティックを使用して収集された、文書概要を含む1.8kの特許と論文のペアの新しい挑戦的なベンチマークであるPAP2PATを紹介します。
現在のオープンウェイト LLM とアウトラインに基づくチャンクベースの生成を使った実験では、これらは論文の情報を効果的に利用できるものの、おそらく特許言語に固有の反復性が原因で、反復に苦労していることがわかりました。
データとコードを公開します。

要約(オリジナル)

The patent domain is gaining attention in natural language processing research, offering practical applications in streamlining the patenting process and providing challenging benchmarks for large language models (LLMs). However, the generation of the description sections of patents, which constitute more than 90% of the patent document, has not been studied to date. We address this gap by introducing the task of outline-guided paper-to-patent generation, where an academic paper provides the technical specification of the invention and an outline conveys the desired patent structure. We present PAP2PAT, a new challenging benchmark of 1.8k patent-paper pairs with document outlines, collected using heuristics that reflect typical research lab practices. Our experiments with current open-weight LLMs and outline-guided chunk-based generation show that they can effectively use information from the paper but struggle with repetitions, likely due to the inherent repetitiveness of patent language. We release our data and code.

arxiv情報

著者 Valentin Knappich,Simon Razniewski,Anna Hätty,Annemarie Friedrich
発行日 2024-10-09 15:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Tri-Level Navigator: LLM-Empowered Tri-Level Learning for Time Series OOD Generalization

要約

機械学習における Out-of-Distribution (OOD) 一般化は、急成長している研究分野です。
その主な目標は、元のトレーニング データセットから大きく異なる、まだ見たことのない、敵対的な可能性のある新しいデータに直面したときの機械学習モデルの適応性と回復力を強化することです。
このペーパーでは、事前トレーニングされた大規模言語モデル (LLM) を介した時系列 OOD の一般化を調査します。
私たちは最初に、サンプルレベルとグループレベルの不確実性の両方を考慮する、TTSO と呼ばれる \textbf{T}ime \textbf{S}eries \textbf{O}OD 一般化のための新しい \textbf{T}ri レベルの学習フレームワークを提案します。

この式は、OOD 一般化問題の定式化と分析に新しい理論的観点を提供します。
さらに、この方法が十分に動機付けられていることを正当化する理論的分析を提供します。
次に、この 3 レベルの最適化問題に合わせて調整された層別位置推定アルゴリズムを開発し、提案されたアルゴリズムの収束が保証されていることを理論的に実証します。
私たちの分析では、$\epsilon$ 定常点を取得するための反復計算量が O($\frac{1}{\epsilon^{2}}$) によって制限されることも明らかになりました。
提案された方法の有効性を解明するために、現実世界のデータセットに対する広範な実験が行われました。

要約(オリジナル)

Out-of-Distribution (OOD) generalization in machine learning is a burgeoning area of study. Its primary goal is to enhance the adaptability and resilience of machine learning models when faced with new, unseen, and potentially adversarial data that significantly diverges from their original training datasets. In this paper, we investigate time series OOD generalization via pre-trained Large Language Models (LLMs). We first propose a novel \textbf{T}ri-level learning framework for \textbf{T}ime \textbf{S}eries \textbf{O}OD generalization, termed TTSO, which considers both sample-level and group-level uncertainties. This formula offers a fresh theoretic perspective for formulating and analyzing OOD generalization problem. In addition, we provide a theoretical analysis to justify this method is well motivated. We then develop a stratified localization algorithm tailored for this tri-level optimization problem, theoretically demonstrating the guaranteed convergence of the proposed algorithm. Our analysis also reveals that the iteration complexity to obtain an $\epsilon$-stationary point is bounded by O($\frac{1}{\epsilon^{2}}$). Extensive experiments on real-world datasets have been conducted to elucidate the effectiveness of the proposed method.

arxiv情報

著者 Chengtao Jian,Kai Yang,Yang Jiao
発行日 2024-10-09 16:00:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law

要約

事前トレーニングされた大規模言語モデル (LLM) は、時系列予測などのゼロショット タスクの実行において驚くほど効果的です。
ただし、モデルが複雑であるため、そのような機能の背後にあるメカニズムを理解することは依然として非常に困難です。
私たちは、物理的関心の原理によって進化が支配される動的システムの挙動を推定する LLM の能力を研究します。
私たちの結果は、主にテキストでトレーニングされた言語モデルである LLaMA 2 が、微調整や迅速なエンジニアリングを行わなくても、動的システム時系列の正確な予測を達成できることを示しています。
さらに、学習された物理規則の精度は入力コンテキスト ウィンドウの長さに応じて増加し、ニューラル スケーリング則のコンテキスト内バージョンが明らかになります。
その過程で、LLM から直接複数桁の数値の確率密度関数を抽出するための柔軟で効率的なアルゴリズムを紹介します。

要約(オリジナル)

Pretrained large language models (LLMs) are surprisingly effective at performing zero-shot tasks, including time-series forecasting. However, understanding the mechanisms behind such capabilities remains highly challenging due to the complexity of the models. We study LLMs’ ability to extrapolate the behavior of dynamical systems whose evolution is governed by principles of physical interest. Our results show that LLaMA 2, a language model trained primarily on texts, achieves accurate predictions of dynamical system time series without fine-tuning or prompt engineering. Moreover, the accuracy of the learned physical rules increases with the length of the input context window, revealing an in-context version of neural scaling law. Along the way, we present a flexible and efficient algorithm for extracting probability density functions of multi-digit numbers directly from LLMs.

arxiv情報

著者 Toni J. B. Liu,Nicolas Boullé,Raphaël Sarfati,Christopher J. Earls
発行日 2024-10-09 16:02:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

要約

大規模言語モデル (LLM) は、ロールプレイング、クリエイティブ ライティング、数学的推論、コーディングなど、さまざまな領域にわたって優れた機能を実証します。
これらの進歩にもかかわらず、LLM は依然として長さ制御に関する課題に直面しており、トークンレベルの操作と厳密な長さ制限のあるデータに対するトレーニングが不十分であるため、特定の長さの制約を順守できないことがよくあります。
私たちは、この問題が位置認識の欠如に起因すると特定し、それに対処するための新しいアプローチ、PositionID Prompting および PositionID Fine-Tuning を提案します。
これらの方法により、生成中にテキストの長さを継続的に監視および管理するモデルの機能が強化されます。
さらに、PositionID CP プロンプトを導入して、LLM がコピー アンド ペースト操作を正確に実行できるようにします。
さらに、長さの制御とコピー&ペーストの能力を評価するための 2 つのベンチマークを開発しました。
私たちの実験では、私たちの方法により、応答品質を損なうことなく、モデルの長さの制約への準拠とコピー&ペーストの精度が大幅に向上することが実証されました。

要約(オリジナル)

Large Language Models (LLMs) demonstrate impressive capabilities across various domains, including role-playing, creative writing, mathematical reasoning, and coding. Despite these advancements, LLMs still encounter challenges with length control, frequently failing to adhere to specific length constraints due to their token-level operations and insufficient training on data with strict length limitations. We identify this issue as stemming from a lack of positional awareness and propose novel approaches–PositionID Prompting and PositionID Fine-Tuning–to address it. These methods enhance the model’s ability to continuously monitor and manage text length during generation. Additionally, we introduce PositionID CP Prompting to enable LLMs to perform copy and paste operations accurately. Furthermore, we develop two benchmarks for evaluating length control and copy-paste abilities. Our experiments demonstrate that our methods significantly improve the model’s adherence to length constraints and copy-paste accuracy without compromising response quality.

arxiv情報

著者 Zekun Wang,Feiyu Duan,Yibo Zhang,Wangchunshu Zhou,Ke Xu,Wenhao Huang,Jie Fu
発行日 2024-10-09 16:15:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Emergent properties with repeated examples

要約

私たちは、アルゴリズムで生成されたデータセットを使用したトレーニング例の繰り返し数の関数として、トランスフォーマーのパフォーマンスを研究します。
最大公約数、モジュラー乗算、行列の固有値という 3 つの数学の問題に関して、固定数のトレーニング ステップでは、繰り返し使用されるサンプルのより小さなセットでトレーニングされたモデルが、単一使用のサンプルのより大きなセットでトレーニングされたモデルよりも優れたパフォーマンスを発揮することを示します。
また、2 セットのトレーニング (トレーニング セットの残りの通常のサンプリングに沿ってサンプルの小さなランダムなサブセットを繰り返し使用する) により、学習が高速化され、パフォーマンスが向上することも実証します。
これは、反復の利点がデータの多様性の利点を上回る可能性があることを強調しています。
これらのデータセットと問題は、深層学習における一般化と記憶の間のまだよく理解されていない相互作用に光を当てるための制御された設定を提供します。

要約(オリジナル)

We study the performance of transformers as a function of the number of repetitions of training examples with algorithmically generated datasets. On three problems of mathematics: the greatest common divisor, modular multiplication, and matrix eigenvalues, we show that for a fixed number of training steps, models trained on smaller sets of repeated examples outperform models trained on larger sets of single-use examples. We also demonstrate that two-set training – repeated use of a small random subset of examples, along normal sampling on the rest of the training set – provides for faster learning and better performance. This highlights that the benefits of repetition can outweigh those of data diversity. These datasets and problems provide a controlled setting to shed light on the still poorly understood interplay between generalization and memorization in deep learning.

arxiv情報

著者 François Charton,Julia Kempe
発行日 2024-10-09 16:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Greener GRASS: Enhancing GNNs with Encoding, Rewiring, and Attention

要約

グラフ ニューラル ネットワーク (GNN) は、グラフ構造データの機械学習のための重要なツールとなっています。
この論文では、新しい GNN アーキテクチャである Graph Attendant with Stochastic Structures (GRASS) を導入することにより、グラフ エンコーディング、グラフの再配線、およびグラフ アテンションの相乗的な組み合わせを検討します。
GRASS は、相対ランダム ウォーク確率 (RRWP) エンコーディングと新しい分解バリアント (D-RRWP) を利用して、構造情報を効率的に取得します。
ランダムな通常のグラフを重ね合わせて入力グラフを再配線し、長距離の情報伝播を強化します。
また、グラフ構造データに合わせた新しい追加的注意メカニズムも採用しています。
私たちの経験的評価は、GRASS が ZINC データセットでの平均絶対誤差の 20.3% 削減を含む、複数のベンチマーク データセットで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Graph Neural Networks (GNNs) have become important tools for machine learning on graph-structured data. In this paper, we explore the synergistic combination of graph encoding, graph rewiring, and graph attention, by introducing Graph Attention with Stochastic Structures (GRASS), a novel GNN architecture. GRASS utilizes relative random walk probabilities (RRWP) encoding and a novel decomposed variant (D-RRWP) to efficiently capture structural information. It rewires the input graph by superimposing a random regular graph to enhance long-range information propagation. It also employs a novel additive attention mechanism tailored for graph-structured data. Our empirical evaluations demonstrate that GRASS achieves state-of-the-art performance on multiple benchmark datasets, including a 20.3% reduction in mean absolute error on the ZINC dataset.

arxiv情報

著者 Tongzhou Liao,Barnabás Póczos
発行日 2024-10-09 16:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | コメントする