Emergence of meta-stable clustering in mean-field transformer models

要約

トランス層の深いスタック内のトークンの進化を、ユニット球上の連続時間フローとしてモデル化し、平均フィールド相互作用粒子システムによって支配され、導入されたフレームワークに基づいて構築されます(Geshkovski et al。、2023)。
ワッシャースタイン勾配の流れとして解釈できる対応する平均フィールドの部分微分方程式(PDE)を研究します。このペーパーでは、このシステムの長期的な挙動の数学的調査を提供し、メタ安定性フェーズの出現と持続性と、フェノメナの主要な要素をクラスター化することに特に焦点を当てています。
より具体的には、IIDの均一初期化の周りの平均場PDEの摂動分析を実行し、多数のトークンの限界で、モデルは特定の構造を持つ溶液のメタ安定マニホールドに近いままであることを証明します。
さらに、メタ安定マニホールドを特徴付ける構造は、ゲーゲンバウアー多項式の特定の再スケーリングを最大化するインデックスによって、モデルの逆温度パラメーターの関数として明示的に識別されます。

要約(オリジナル)

We model the evolution of tokens within a deep stack of Transformer layers as a continuous-time flow on the unit sphere, governed by a mean-field interacting particle system, building on the framework introduced in (Geshkovski et al., 2023). Studying the corresponding mean-field Partial Differential Equation (PDE), which can be interpreted as a Wasserstein gradient flow, in this paper we provide a mathematical investigation of the long-term behavior of this system, with a particular focus on the emergence and persistence of meta-stable phases and clustering phenomena, key elements in applications like next-token prediction. More specifically, we perform a perturbative analysis of the mean-field PDE around the iid uniform initialization and prove that, in the limit of large number of tokens, the model remains close to a meta-stable manifold of solutions with a given structure (e.g., periodicity). Further, the structure characterizing the meta-stable manifold is explicitly identified, as a function of the inverse temperature parameter of the model, by the index maximizing a certain rescaling of Gegenbauer polynomials.

arxiv情報

著者 Giuseppe Bruno,Federico Pasqualotto,Andrea Agazzi
発行日 2025-04-16 16:07:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 34D05, 34D06, 35Q83, cs.LG, math.AP | Emergence of meta-stable clustering in mean-field transformer models はコメントを受け付けていません

Investigating Generalization Behaviours of Generative Flow Networks

要約

生成フローネットワーク(Gflownets、GFNS)は、離散空間で非正規化確率質量関数を学習するための生成的フレームワークです。
彼らの設立以来、Gflownetsは、トレーニング中に個別のスペースの大部分が訪問されていないアプリケーションで生成モデルを学習するのに役立つことが証明されています。
これは、深いニューラルネットワーク(DNNS)とペアになった場合、Gflownetsが好ましい一般化特性を持っているという仮説を立てることに影響を与えました。
この作業では、Gflownetsの一般化の仮説メカニズムのいくつかを経験的に検証します。
これは、報酬の難易度を簡単に変化させることができる新しいグラフベースのベンチマーク環境を導入することで実現し、$ p(x)$を正確に計算し、目に見えないテストセットを構築して一般化パフォーマンスを定量化できます。
このグラフベースの環境を使用して、Gflownetsの一般化の仮説メカニズムを体系的にテストし、調査結果を要約する一連の経験的観察を出すことができます。
特に、Gflownetsが近似することを学ぶ機能には、一般化を促進する暗黙の根本構造があることがわかります(および確認)。
驚くべきことに、そして既存の知識といくらか矛盾しますが、Gflownetsはオフラインおよびオフポリシーに訓練されることに敏感であることがわかります。
ただし、Gflownetsによって暗黙的に学習された報酬は、トレーニング分布の変化に対して堅牢です。

要約(オリジナル)

Generative Flow Networks (GFlowNets, GFNs) are a generative framework for learning unnormalized probability mass functions over discrete spaces. Since their inception, GFlowNets have proven to be useful for learning generative models in applications where the majority of the discrete space is unvisited during training. This has inspired some to hypothesize that GFlowNets, when paired with deep neural networks (DNNs), have favorable generalization properties. In this work, we empirically verify some of the hypothesized mechanisms of generalization of GFlowNets. We accomplish this by introducing a novel graph-based benchmark environment where reward difficulty can be easily varied, $p(x)$ can be computed exactly, and an unseen test set can be constructed to quantify generalization performance. Using this graph-based environment, we are able to systematically test the hypothesized mechanisms of generalization of GFlowNets and put forth a set of empirical observations that summarize our findings. In particular, we find (and confirm) that the functions that GFlowNets learn to approximate have an implicit underlying structure which facilitate generalization. Surprisingly — and somewhat contradictory to existing knowledge — we also find that GFlowNets are sensitive to being trained offline and off-policy. However, the reward implicitly learned by GFlowNets is robust to changes in the training distribution.

arxiv情報

著者 Lazar Atanackovic,Emmanuel Bengio
発行日 2025-04-16 16:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Investigating Generalization Behaviours of Generative Flow Networks はコメントを受け付けていません

MALADY: Multiclass Active Learning with Auction Dynamics on Graphs

要約

アクティブ学習は、基礎となる分類器のパフォーマンスを改善することを目的として、ラベル付けのために限られた数の非標識データポイントを慎重に選択することにより、特に半監視のケースでの機械学習方法のパフォーマンスを向上させます。
この作業では、効率的なアクティブ学習のために類似性グラフでオークションダイナミクスアルゴリズムを活用するグラフ(Malady)フレームワークのオークションダイナミクスを使用して、マルチクラスアクティブ学習を紹介します。
特に、より一般的な最適化機能を組み込むために、[24]の半監視学習のための類似性グラフのオークションダイナミクスアルゴリズムを一般化します。
さらに、オークションアルゴリズムのデュアル変数を使用して分類器の不確実性を測定して、異なるクラス間の決定境界近くのクエリを優先順位付けする新しいアクティブな学習取得関数を導入します。
最後に、分類タスクの実験を使用して、提案された方法のパフォーマンスを評価し、比較アルゴリズムのパフォーマンスを超えることを示します。

要約(オリジナル)

Active learning enhances the performance of machine learning methods, particularly in semi-supervised cases, by judiciously selecting a limited number of unlabeled data points for labeling, with the goal of improving the performance of an underlying classifier. In this work, we introduce the Multiclass Active Learning with Auction Dynamics on Graphs (MALADY) framework which leverages the auction dynamics algorithm on similarity graphs for efficient active learning. In particular, we generalize the auction dynamics algorithm on similarity graphs for semi-supervised learning in [24] to incorporate a more general optimization functional. Moreover, we introduce a novel active learning acquisition function that uses the dual variable of the auction algorithm to measure the uncertainty in the classifier to prioritize queries near the decision boundaries between different classes. Lastly, using experiments on classification tasks, we evaluate the performance of our proposed method and show that it exceeds that of comparison algorithms.

arxiv情報

著者 Gokul Bhusal,Kevin Miller,Ekaterina Merkurjev
発行日 2025-04-16 16:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, math.OC | MALADY: Multiclass Active Learning with Auction Dynamics on Graphs はコメントを受け付けていません

Identifying Unknown Stochastic Dynamics via Finite expression methods

要約

確率微分方程式(SDE)のモデリングは、さまざまな科学分野で複雑な動的システムを理解するために重要です。
最近の方法では、通常、決定論的な用語と確率的用語の組み合わせを介してSDEを表すニューラルネットワークベースのモデルを使用しています。
ただし、これらのモデルは通常、解釈可能性がなく、トレーニングドメインを超えて一般化するのが困難です。
このペーパーでは、SDEの決定論的成分の解釈可能な数学的表現を導き出すために設計された象徴的な学習アプローチである有限発現法(FEX)を紹介します。
確率的成分については、FEXを高度な生成モデリング技術と統合して、SDEの包括的な表現を提供します。
線形、非線形、多次元のSDEに関する数値実験は、Fexがトレーニングドメインをはるかに超えて一般化し、ニューラルネットワークベースの方法と比較してより正確な長期予測を提供することを示しています。
FEXによって特定された象徴的な表現は、予測の精度を改善するだけでなく、システムの基礎となるダイナミクスに関する貴重な科学的洞察を提供し、新しい科学的発見への道を開いています。

要約(オリジナル)

Modeling stochastic differential equations (SDEs) is crucial for understanding complex dynamical systems in various scientific fields. Recent methods often employ neural network-based models, which typically represent SDEs through a combination of deterministic and stochastic terms. However, these models usually lack interpretability and have difficulty generalizing beyond their training domain. This paper introduces the Finite Expression Method (FEX), a symbolic learning approach designed to derive interpretable mathematical representations of the deterministic component of SDEs. For the stochastic component, we integrate FEX with advanced generative modeling techniques to provide a comprehensive representation of SDEs. The numerical experiments on linear, nonlinear, and multidimensional SDEs demonstrate that FEX generalizes well beyond the training domain and delivers more accurate long-term predictions compared to neural network-based methods. The symbolic expressions identified by FEX not only improve prediction accuracy but also offer valuable scientific insights into the underlying dynamics of the systems, paving the way for new scientific discoveries.

arxiv情報

著者 Senwei Liang,Chunmei Wang,Xingjian Xu
発行日 2025-04-16 16:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Identifying Unknown Stochastic Dynamics via Finite expression methods はコメントを受け付けていません

RAIN: Reinforcement Algorithms for Improving Numerical Weather and Climate Models

要約

この研究では、気候科学における重要なパラメーター化の課題に対処するために、理想化された気候モデルと補強学習(RL)を統合することを調査します。
現在の気候モデルは、複雑な数学的パラメーター化に依存して、サブグリッドスケールプロセスを表し、かなりの不確実性を導入できます。
RLは、直接的な相互作用、スパースまたは遅延フィードバックの処理、継続的なオンライン学習、長期最適化など、これらのパラメーター化スキームを強化する機能を提供します。
2つの理想化された環境で8つのRLアルゴリズムのパフォーマンスを評価します。1つは温度バイアス補正用、もう1つは放射線抑制平衡(RCE)の実世界の計算制約を模倣します。
結果は、さまざまなRLアプローチがさまざまな気候シナリオで優れていることを示しています。調査アルゴリズムはバイアス補正でパフォーマンスを向上させ、搾取アルゴリズムがRCEにより効果的であることを証明しています。
これらの調査結果は、RLベースのパラメーター化スキームの可能性をグローバルな気候モデルに統合し、複雑な気候のダイナミクスをキャプチャする精度と効率を向上させることをサポートしています。
全体として、この作業は、気候の理解と予測を改善するために重要な気候モデルの精度を高めるためにRLを活用するための重要な第一歩を表しています。
https://github.com/p3jitnath/climate-rlでアクセス可能なコード。

要約(オリジナル)

This study explores integrating reinforcement learning (RL) with idealised climate models to address key parameterisation challenges in climate science. Current climate models rely on complex mathematical parameterisations to represent sub-grid scale processes, which can introduce substantial uncertainties. RL offers capabilities to enhance these parameterisation schemes, including direct interaction, handling sparse or delayed feedback, continuous online learning, and long-term optimisation. We evaluate the performance of eight RL algorithms on two idealised environments: one for temperature bias correction, another for radiative-convective equilibrium (RCE) imitating real-world computational constraints. Results show different RL approaches excel in different climate scenarios with exploration algorithms performing better in bias correction, while exploitation algorithms proving more effective for RCE. These findings support the potential of RL-based parameterisation schemes to be integrated into global climate models, improving accuracy and efficiency in capturing complex climate dynamics. Overall, this work represents an important first step towards leveraging RL to enhance climate model accuracy, critical for improving climate understanding and predictions. Code accessible at https://github.com/p3jitnath/climate-rl.

arxiv情報

著者 Pritthijit Nath,Henry Moss,Emily Shuckburgh,Mark Webb
発行日 2025-04-16 16:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.ao-ph | RAIN: Reinforcement Algorithms for Improving Numerical Weather and Climate Models はコメントを受け付けていません

Asymptotic Optimism of Random-Design Linear and Kernel Regression Models

要約

私たちは、ランダム設計下で線形回帰モデルの閉じた漸近楽観主義を導き出し、それをカーネルリッジの回帰に一般化しました。
一般的な予測モデルの複雑さの尺度としてスケーリングされた漸近楽観主義を使用して、線形回帰モデル、接線カーネル(NTK)回帰モデル、3層完全接続ニューラルネットワーク(NN)の基本的な異なる挙動を研究しました。
私たちの貢献は2つあります。スケーリングされた楽観主義をモデル予測複雑さの尺度として使用するための理論的根拠を提供しました。
また、RELUSを持つNNがこの尺度でカーネルモデルとは異なる動作が異なることを経験的に示します。
再サンプリング手法では、実際のデータを使用して回帰モデルの楽観主義を計算することもできます。

要約(オリジナル)

We derived the closed-form asymptotic optimism of linear regression models under random designs, and generalizes it to kernel ridge regression. Using scaled asymptotic optimism as a generic predictive model complexity measure, we studied the fundamental different behaviors of linear regression model, tangent kernel (NTK) regression model and three-layer fully connected neural networks (NN). Our contribution is two-fold: we provided theoretical ground for using scaled optimism as a model predictive complexity measure; and we show empirically that NN with ReLUs behaves differently from kernel models under this measure. With resampling techniques, we can also compute the optimism for regression models with real data.

arxiv情報

著者 Hengrui Luo,Yunzhang Zhu
発行日 2025-04-16 17:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Q32, 68T05, cs.LG, math.ST, stat.ML, stat.TH | Asymptotic Optimism of Random-Design Linear and Kernel Regression Models はコメントを受け付けていません

Selective Attention Federated Learning: Improving Privacy and Efficiency for Clinical Text Classification

要約

フェデレーションラーニング(FL)は、特にヘルスケアアプリケーションで大規模な言語モデル(LLM)をトレーニングする際に、コミュニケーションオーバーヘッドとモデルのプライバシーに関する大きな課題に直面しています。
これらに対処するために、選択的注意層として特定されたトランス層のみを動的に微調整する新しいアプローチである選択的注意フェデレートラーニング(SAFL)を紹介します。
レイヤーの重要性を決定するために注意パターンを使用することにより、Saflはコミュニケーションの帯域幅を大幅に削減し、プライバシーのレジリエンスを拡大します。
臨床NLPベンチマークの評価(I2B2臨床概念抽出と模倣III放電の要約)は、SAFLが集中モデルで競争力のあるパフォーマンスを達成し、コミュニケーションの効率とプライバシーの保存を大幅に改善することを示しています。

要約(オリジナル)

Federated Learning (FL) faces major challenges regarding communication overhead and model privacy when training large language models (LLMs), especially in healthcare applications. To address these, we introduce Selective Attention Federated Learning (SAFL), a novel approach that dynamically fine-tunes only those transformer layers identified as attention-critical. By employing attention patterns to determine layer importance, SAFL significantly reduces communication bandwidth and enhances differential privacy resilience. Evaluations on clinical NLP benchmarks (i2b2 Clinical Concept Extraction and MIMIC-III discharge summaries) demonstrate that SAFL achieves competitive performance with centralized models while substantially improving communication efficiency and privacy preservation.

arxiv情報

著者 Yue Li,Lihong Zhang
発行日 2025-04-16 05:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Selective Attention Federated Learning: Improving Privacy and Efficiency for Clinical Text Classification はコメントを受け付けていません

Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture

要約

同時音声翻訳(SIMULST)は、部分的な音声入力を処理しながら翻訳を段階的に生成します。
大規模な言語モデル(LLM)は、オフラインの翻訳タスクで強力な機能を紹介していますが、それらをシミュレーションに適用すると顕著な課題があります。
既存のLLMベースのSimulstアプローチは、双方向の音声エンコーダーのエンコードが繰り返されるため、有意な計算オーバーヘッドを負担するか、固定された読み取り/書き込みポリシーに依存して、効率とパフォーマンスを制限します。
この作業では、音声エンコーダとLLMの両方を含む完全に一方向のアーキテクチャを備えた効率的かつ適応的な同時音声翻訳(EASIST)を導入します。
EASISTには、明示的な読み取り/書き込みトークンを使用したインターリーブ生成タスクとして、セマンティックに整列したシミュレーショントレーニングサンプルを生成し、Simulstを再定義するための多発性データキュレーション戦略が含まれています。
適応推論を促進するために、読み取り/書き込みアクションを動的に予測する軽量ポリシーヘッドを組み込みます。
さらに、音声テキストモダリティを調整し、翻訳とポリシーの両方の行動を最適化するために、マルチステージトレーニング戦略を採用しています。
マスト-C en $ \ rightArrow $ deおよびen $ \ rightArrow $ esデータセットの実験は、Easistがいくつかの強力なベースラインと比較して優れたレイテンシー品質のトレードオフを提供することを示しています。

要約(オリジナル)

Simultaneous speech translation (SimulST) produces translations incrementally while processing partial speech input. Although large language models (LLMs) have showcased strong capabilities in offline translation tasks, applying them to SimulST poses notable challenges. Existing LLM-based SimulST approaches either incur significant computational overhead due to repeated encoding of bidirectional speech encoder, or they depend on a fixed read/write policy, limiting the efficiency and performance. In this work, we introduce Efficient and Adaptive Simultaneous Speech Translation (EASiST) with fully unidirectional architecture, including both speech encoder and LLM. EASiST includes a multi-latency data curation strategy to generate semantically aligned SimulST training samples and redefines SimulST as an interleaved generation task with explicit read/write tokens. To facilitate adaptive inference, we incorporate a lightweight policy head that dynamically predicts read/write actions. Additionally, we employ a multi-stage training strategy to align speech-text modalities and optimize both translation and policy behavior. Experiments on the MuST-C En$\rightarrow$De and En$\rightarrow$Es datasets demonstrate that EASiST offers superior latency-quality trade-offs compared to several strong baselines.

arxiv情報

著者 Biao Fu,Donglei Yu,Minpeng Liao,Chengxi Li,Yidong Chen,Kai Fan,Xiaodong Shi
発行日 2025-04-16 06:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture はコメントを受け付けていません

ARWI: Arabic Write and Improve

要約

アラビア語は4億人以上の人々によって話されていますが、高度なアラビア語のライティング支援ツールはまだ限られています。
このギャップに対処するために、現代の標準的なアラビア語でのエッセイの執筆を改善するのに役立つ新しいライティングアシスタントであるArwiを提示します。
ARWIは、さまざまな習熟レベルの迅速なデータベース、アラビア語のテキストエディター、最先端の文法エラー検出と修正、および言語達成の参照基準の一般的なヨーロッパの枠組みと一致する自動エッセイのスコアリングを含める最初の公開されたアラビア語のライティングアシスタントです。
さらに、ARWIを使用して、成長する自動解剖されたコーパスを収集し、アラビア語の文法修正とエッセイのスコアリングに関するさらなる研究、およびネイティブスピーカーと非ネイティブ学習者によるエラーのプロファイリングパターンを促進することができます。
予備的なユーザー調査では、ARWIが実用的なフィードバックを提供し、学習者が文法的なギャップを特定し、言語能力を評価し、ガイドの改善を支援することを示しています。

要約(オリジナル)

Although Arabic is spoken by over 400 million people, advanced Arabic writing assistance tools remain limited. To address this gap, we present ARWI, a new writing assistant that helps learners improve essay writing in Modern Standard Arabic. ARWI is the first publicly available Arabic writing assistant to include a prompt database for different proficiency levels, an Arabic text editor, state-of-the-art grammatical error detection and correction, and automated essay scoring aligned with the Common European Framework of Reference standards for language attainment. Moreover, ARWI can be used to gather a growing auto-annotated corpus, facilitating further research on Arabic grammar correction and essay scoring, as well as profiling patterns of errors made by native speakers and non-native learners. A preliminary user study shows that ARWI provides actionable feedback, helping learners identify grammatical gaps, assess language proficiency, and guide improvement.

arxiv情報

著者 Kirill Chirkunov,Bashar Alhafni,Chatrine Qwaider,Nizar Habash,Ted Briscoe
発行日 2025-04-16 07:00:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ARWI: Arabic Write and Improve はコメントを受け付けていません

Natural Language Outlines for Code: Literate Programming in the LLM Era

要約

ソフトウェア開発プロセス全体で開発者にAI支援を提供するために、自然言語の概要を新しいモダリティと相互作用面として使用することを提案します。
コード関数のNLの概要は、簡潔な散文で記述された複数のステートメントで構成され、コードを分割し、識字プログラミングのスタイルでその主なアイデアを要約します。
重要なことに、現代のLLMは実際に正確で高品質のNLアウトラインを生成できることがわかります。
さらに、NLのアウトラインは、コードとNLの間の双方向同期を有効にします。開発者は一方を変更でき、LLMは他方を自動的に更新できます。
NLのアウトラインの多くのユースケースについて説明します。コードとDIFFの理解とナビゲーションを加速し、コードメンテナンスの簡素化、コード検索の増強、コード生成の操作など。
次に、アウトラインを生成するための複数のLLMプロンプトテクニックを提案して比較し、プロの開発者に概要を判断するよう依頼します。
最後に、コードレビューとマルウェア検出にNLアウトラインを適用する2つのケーススタディを提示します。

要約(オリジナル)

We propose using natural language outlines as a novel modality and interaction surface for providing AI assistance to developers throughout the software development process. An NL outline for a code function comprises multiple statements written in concise prose, which partition the code and summarize its main ideas in the style of literate programming. Crucially, we find that modern LLMs can generate accurate and high-quality NL outlines in practice. Moreover, NL outlines enable a bidirectional sync between code and NL: a developer can change one and the LLM automatically updates the other. We discuss many use cases for NL outlines: they can accelerate understanding and navigation of code and diffs, simplify code maintenance, augment code search, steer code generation, and more. We then propose and compare multiple LLM prompting techniques for generating outlines and ask professional developers to judge outline quality. Finally, we present two case studies applying NL outlines toward code review and malware detection.

arxiv情報

著者 Kensen Shi,Deniz Altınbüken,Saswat Anand,Mihai Christodorescu,Katja Grünwedel,Alexa Koenings,Sai Naidu,Anurag Pathak,Marc Rasi,Fredde Ribeiro,Brandon Ruffin,Siddhant Sanyam,Maxim Tabachnyk,Sara Toth,Roy Tu,Tobias Welp,Pengcheng Yin,Manzil Zaheer,Satish Chandra,Charles Sutton
発行日 2025-04-16 07:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.SE | Natural Language Outlines for Code: Literate Programming in the LLM Era はコメントを受け付けていません