Finite sample learning of moving targets

要約

私たちは、サンプルから学ぼうとする動くターゲットを検討します。
私たちの結果は、ターゲットが変化している場合に一定のターゲットのために、制御と最適化で開発されたランダム化技術を拡張します。
ターゲットのほぼ正しい(PAC)推定を構築するために必要なサンプルの数に縛られた新規を導き出します。
さらに、移動ターゲットが凸ポリトープである場合、混合整数線形プログラム(MILP)を使用してPAC推定を生成する建設的な方法を提供します。
提案された方法は、自律的な緊急ブレーキへの応用で実証されています。

要約(オリジナル)

We consider a moving target that we seek to learn from samples. Our results extend randomized techniques developed in control and optimization for a constant target to the case where the target is changing. We derive a novel bound on the number of samples that are required to construct a probably approximately correct (PAC) estimate of the target. Furthermore, when the moving target is a convex polytope, we provide a constructive method of generating the PAC estimate using a mixed integer linear program (MILP). The proposed method is demonstrated on an application to autonomous emergency braking.

arxiv情報

著者 Nikolaus Vertovec,Kostas Margellos,Maria Prandini
発行日 2025-05-20 17:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Finite sample learning of moving targets はコメントを受け付けていません

Towards Model-Agnostic Federated Learning over Networks

要約

不均一なデータとモデルのネットワークのためのモデルに依存しないフェデレーション学習方法を提示します。
ネットワーク構造は、ローカルデータセットとそれに関連するローカル(個人)モデルとの間の類似性を反映しています。
私たちの方法は、データのネットワーク構造から派生した正則化の用語を備えた経験的リスク最小化のインスタンスです。
特に、クラスターを形成する適切に接続されたローカルモデルが必要であり、共有されたパブリックの非標識データセットで同様の予測を生成します。
提案された方法により、幅広いローカルモデルが可能になります。
唯一の制限は、これらのローカルモデルが正規化された経験的リスク最小化(トレーニング)の効率的な実装を可能にする必要があることです。
多くのモデルでは、このような実装は、Scikit-Learn、Keras、Pytorchなどの高レベルのプログラミングライブラリですぐに利用できます。

要約(オリジナル)

We present a model-agnostic federated learning method for networks of heterogeneous data and models. The network structure reflects similarities between the (statistics of the) local datasets and, in turn, their associated local (personal) models. Our method is an instance of empirical risk minimization, with a regularization term derived from the network structure of the data. In particular, we require well-connected local models, which form clusters, to yield similar predictions on shared public, unlabelled dataset(s). The proposed method allows for a wide range of local models. The only restriction is that these local models must allow for efficient implementation of regularized empirical risk minimization (training). For many models, such implementations are readily available in high-level programming libraries, including scikit-learn, Keras, and PyTorch.

arxiv情報

著者 S. Abdurakhmanova,Y. SarcheshmehPour,A. Jung
発行日 2025-05-20 17:51:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.2.4, cs.LG | Towards Model-Agnostic Federated Learning over Networks はコメントを受け付けていません

Quartet: Native FP4 Training Can Be Optimal for Large Language Models

要約

大規模な言語モデル(LLMS)の急速な進歩は、計算需要の前例のない増加と並行しており、最先端のモデルのトレーニングコストが数か月ごとに倍増しています。
低精度で直接トレーニングモデルは、計算スループットとエネルギー効率の両方を改善することにより、ソリューションを提供します。
具体的には、Nvidiaの最近のBlackwell Architectureは、非常に低精度の操作、特にFP4バリアントを促進し、実質的な効率性の向上を約束しています。
しかし、FP4精度でLLMをトレーニングするための現在のアルゴリズムは、重大な精度の分解に直面し、多くの場合、混合精通のフォールバックに依存しています。
このホワイトペーパーでは、ハードウェアがサポートするFP4トレーニングを体系的に調査し、カルテットを導入します。カルテットは、低精度で実行されるすべての主要な計算(線形層など)で正確でエンドツーエンドのFP4トレーニングを可能にする新しいアプローチを導入します。
Llama型モデルに関する広範な評価を通じて、さまざまなビット幅にわたってパフォーマンストレードオフを定量化し、Quartetと呼ばれる精度VSコンパージュの観点から「最適に近い」低精度トレーニング手法を特定できるようにする新しい低参照スケーリング法を明らかにします。
Nvidia Blackwell GPUに合わせた最適化されたCudaカーネルを使用してカルテットを実装し、FP4精度の最先端の精度を達成できることを示し、10億個のモデルを正常にトレーニングします。
私たちの方法は、完全なFP4ベースのトレーニングが標準科学およびFP8トレーニングの競争力のある代替手段であることを示しています。
私たちのコードは、https://github.com/ist-daslab/quartetで入手できます。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has been paralleled by unprecedented increases in computational demands, with training costs for state-of-the-art models doubling every few months. Training models directly in low-precision arithmetic offers a solution, by improving both computational throughput and energy efficiency. Specifically, NVIDIA’s recent Blackwell architecture facilitates extremely low-precision operations, specifically FP4 variants, promising substantial efficiency gains. Yet, current algorithms for training LLMs in FP4 precision face significant accuracy degradation and often rely on mixed-precision fallbacks. In this paper, we systematically investigate hardware-supported FP4 training and introduce Quartet, a new approach enabling accurate, end-to-end FP4 training with all the major computations (in e.g. linear layers) being performed in low precision. Through extensive evaluations on Llama-type models, we reveal a new low-precision scaling law that quantifies performance trade-offs across varying bit-widths and allows us to identify a ‘near-optimal’ low-precision training technique in terms of accuracy-vs-computation, called Quartet. We implement Quartet using optimized CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve state-of-the-art accuracy for FP4 precision, successfully training billion-scale models. Our method demonstrates that fully FP4-based training is a competitive alternative to standard-precision and FP8 training. Our code is available at https://github.com/IST-DASLab/Quartet.

arxiv情報

著者 Roberto L. Castro,Andrei Panferov,Soroush Tabesh,Oliver Sieberling,Jiale Chen,Mahdi Nikdan,Saleh Ashkboos,Dan Alistarh
発行日 2025-05-20 17:55:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Quartet: Native FP4 Training Can Be Optimal for Large Language Models はコメントを受け付けていません

Quantum Optimization via Gradient-Based Hamiltonian Descent

要約

機械学習の急速な進歩により、計算効率と低メモリ要件により、最新の最適化技術のバックボーンとして一次アルゴリズムが浮上しています。
最近、特にハミルトニアンダイナミクスのフレームワーク内で、加速された勾配法と減衰の重玉の動きとの関係は、継続的な最適化のための革新的な量子アルゴリズムの開発に影響を与えました。
そのようなアルゴリズムの1つであるQuantum Hamiltonian Descent(QHD)は、QHDトンネルを活用してサドルポイントと局所的な最小値を逃れ、複雑な最適化環境におけるグローバルソリューションの発見を促進します。
ただし、QHDは、量子状態の非ローカルな性質のために、古典的なグラデーション法と比較して遅い収束率や、非常に非凸の問題の堅牢性が限られているなど、いくつかの課題に直面しています。
さらに、元のQHD定式化は主に関数値情報に依存しており、その有効性が制限されています。
古典的な方法での加速メカニズムを解明した高解像度の微分方程式からの洞察に触発され、勾配情報を組み込むことによりQHDの強化を提案し、勾配ベースのQHDと呼ばれるものにつながります。
勾配ベースのQHDは、より速い収束を達成し、グローバルソリューションを特定する可能性を大幅に増加させます。
挑戦的な問題インスタンスに関する数値シミュレーションは、勾配ベースのQHDが既存の量子および古典的な方法を少なくとも1桁上回ることを示しています。

要約(オリジナル)

With rapid advancements in machine learning, first-order algorithms have emerged as the backbone of modern optimization techniques, owing to their computational efficiency and low memory requirements. Recently, the connection between accelerated gradient methods and damped heavy-ball motion, particularly within the framework of Hamiltonian dynamics, has inspired the development of innovative quantum algorithms for continuous optimization. One such algorithm, Quantum Hamiltonian Descent (QHD), leverages quantum tunneling to escape saddle points and local minima, facilitating the discovery of global solutions in complex optimization landscapes. However, QHD faces several challenges, including slower convergence rates compared to classical gradient methods and limited robustness in highly non-convex problems due to the non-local nature of quantum states. Furthermore, the original QHD formulation primarily relies on function value information, which limits its effectiveness. Inspired by insights from high-resolution differential equations that have elucidated the acceleration mechanisms in classical methods, we propose an enhancement to QHD by incorporating gradient information, leading to what we call gradient-based QHD. Gradient-based QHD achieves faster convergence and significantly increases the likelihood of identifying global solutions. Numerical simulations on challenging problem instances demonstrate that gradient-based QHD outperforms existing quantum and classical methods by at least an order of magnitude.

arxiv情報

著者 Jiaqi Leng,Bin Shi
発行日 2025-05-20 17:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, quant-ph | Quantum Optimization via Gradient-Based Hamiltonian Descent はコメントを受け付けていません

ModRWKV: Transformer Multimodality in Linear Time

要約

現在、ほとんどのマルチモーダル研究は、二次複数の変圧器アーキテクチャを備えた大規模な言語モデル(LLMS)に基づいています。
RNNSのような線形モデルは推論コストが低いことを享受していますが、そのアプリケーションはほとんどテキストのみのモダリティに限定されています。
この作業では、マルチモーダルコンテキストでの最新のRNNアーキテクチャの機能を調査します。
LLMバックボーンとして、RWKV7アーキテクチャに基づいて構築されたModRWKV-Aを提案します。
ModRWKVのマルチモーダルモジュールを非常に軽量なアーキテクチャを備えて設計し、広範な実験を通じて、パフォーマンスと計算効率の最適なバランスを達成する構成を特定しました。
modRWKVは、初期化のためにRWKV7 LLMの事前に抑制された重量を活用し、マルチモーダルトレーニングを大幅に加速します。
異なる前提条件のチェックポイントを使用した比較実験はさらに、そのような初期化がマルチモーダル信号を理解するモデルの能力を高める上で重要な役割を果たすことを示しています。
広範な実験にサポートされているため、最新のRNNアーキテクチャは、マルチモーダル大手言語モデル(MLLM)のドメインに変圧器にある実行可能な代替品を提示すると結論付けています。
さらに、体系的な探索を通じてMODRWKVアーキテクチャの最適な構成を特定します。

要約(オリジナル)

Currently, most multimodal studies are based on large language models (LLMs) with quadratic-complexity Transformer architectures. While linear models like RNNs enjoy low inference costs, their application has been largely limited to the text-only modality. This work explores the capabilities of modern RNN architectures in multimodal contexts. We propose ModRWKV-a decoupled multimodal framework built upon the RWKV7 architecture as its LLM backbone-which achieves multi-source information fusion through dynamically adaptable heterogeneous modality encoders. We designed the multimodal modules in ModRWKV with an extremely lightweight architecture and, through extensive experiments, identified a configuration that achieves an optimal balance between performance and computational efficiency. ModRWKV leverages the pretrained weights of the RWKV7 LLM for initialization, which significantly accelerates multimodal training. Comparative experiments with different pretrained checkpoints further demonstrate that such initialization plays a crucial role in enhancing the model’s ability to understand multimodal signals. Supported by extensive experiments, we conclude that modern RNN architectures present a viable alternative to Transformers in the domain of multimodal large language models (MLLMs). Furthermore, we identify the optimal configuration of the ModRWKV architecture through systematic exploration.

arxiv情報

著者 Jiale Kang,Ziyin Yue,Qingyu Yin,Jiang Rui,Weile Li,Zening Lu,Zhouran Ji
発行日 2025-05-20 15:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ModRWKV: Transformer Multimodality in Linear Time はコメントを受け付けていません

Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples

要約

オーディオ認識の大規模な言語モデル(ALLMS)の最近の進歩により、オーディオ入力を処理および理解することができます。
ただし、これらのモデルはしばしば存在しないサウンドイベントを幻覚させ、実際のアプリケーションでの信頼性を低下させます。
これに対処するために、バックボーンLLMの合成データを使用して現在のサウンドと存在しないサウンドを区別するALLMSの能力を高める対照的なトレーニング方法である、リッスン(拡張された負のサンプルを介してサウンドを識別することを学ぶ)を提案します。
以前のアプローチとは異なり、私たちの方法では、LLMパラメーターの変更を必要とせず、軽量アダプターを介してオーディオ表現を効率的に統合します。
実験は、既存のオーディオ質問と推論ベンチマークで印象的なパフォーマンスを維持しながら、聴覚を効果的に幻覚を軽減することを示しています。
同時に、データと計算の両方でより効率的です。

要約(オリジナル)

Recent advancements in audio-aware large language models (ALLMs) enable them to process and understand audio inputs. However, these models often hallucinate non-existent sound events, reducing their reliability in real-world applications. To address this, we propose LISTEN (Learning to Identify Sounds Through Extended Negative Samples), a contrastive-like training method that enhances ALLMs’ ability to distinguish between present and absent sounds using synthesized data from the backbone LLM. Unlike prior approaches, our method requires no modification to LLM parameters and efficiently integrates audio representations via a lightweight adapter. Experiments show that LISTEN effectively mitigates hallucinations while maintaining impressive performance on existing audio question and reasoning benchmarks. At the same time, it is more efficient in both data and computation.

arxiv情報

著者 Chun-Yi Kuan,Hung-yi Lee
発行日 2025-05-20 15:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples はコメントを受け付けていません

Exploring Graph Representations of Logical Forms for Language Modeling

要約

このようなモデルは、テキストの対応物よりもデータ効率が高いと主張して、論理形式(LFLMS)よりも言語モデルを主張します。
そのために、LFLMの概念の証明として、論理形式のグラフ表現上の前提条件のLMであるグラフベースの正式な配信セマンティクス(GFOLDS)プロトタイプを紹介します。
GFOLDSを使用して、LFLMがこのようなモデルに固有の組み込みの基本的な言語知識を活用して、より複雑なパターンをすぐに学習し始めることができるという強力な実験的証拠を提示します。
ダウンストリームタスクでは、GFOLDSがテキストを大幅に上回ることを示します。変圧器LMSは、同様の量のデータで前処理されており、LFLMSがプレーンテキストよりもモデルよりもかなり少ないデータで学習できることを示しています。
さらに、このモデルのパフォーマンスは、追加のパラメーターと前提条件データでスケーリングされる可能性が高いことを示し、実際のアプリケーションでのLFLMの実行可能性を示唆しています。

要約(オリジナル)

We make the case for language models over logical forms (LFLMs), arguing that such models are more data-efficient than their textual counterparts. To that end, we introduce the Graph-based Formal-Logical Distributional Semantics (GFoLDS) prototype, a pretrained LM over graph representations of logical forms, as a proof-of-concept of LFLMs. Using GFoLDS, we present strong experimental evidence that LFLMs can leverage the built-in, basic linguistic knowledge inherent in such models to immediately begin learning more complex patterns. On downstream tasks, we show that GFoLDS vastly outperforms textual, transformer LMs pretrained on similar amounts of data, indicating that LFLMs can learn with substantially less data than models over plain text. Furthermore, we show that the performance of this model is likely to scale with additional parameters and pretraining data, suggesting the viability of LFLMs in real-world applications.

arxiv情報

著者 Michael Sullivan
発行日 2025-05-20 15:46:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Exploring Graph Representations of Logical Forms for Language Modeling はコメントを受け付けていません

MMUnlearner: Reformulating Multimodal Machine Unlearning in the Era of Multimodal Large Language Models

要約

Machine Inlerning(MU)の最近の進捗状況は、深いニューラルネットワーク内でエンコードされたプライベートまたは機密情報を選択的に除去するためのソリューションを導入しました。
それにもかかわらず、マルチモーダルの大手言語モデル(MLLM)のMUは、初期段階のままです。
したがって、MLLMSの時代にマルチモーダルMUのタスクを再定式化することを提案します。これは、言語モデルのバックボーンの元のパラメーター内でエンコードされた対応するテキスト知識を保存しながら、特定のエンティティに関連する視覚パターンのみを消去することを目的としています。
さらに、新しいジオメトリに制約された勾配上昇方法mmunlearnerを開発します。
MLLMの重量を、学習中に残りの概念とテキストの知識によって共同で制限されている重量の顕著性マップで更新され、それにより、非標的知識に不可欠なパラメーターを維持します。
広範な実験は、MmunLearnerが、すべての評価ディメンションにわたって、勾配上昇(GA)または負の好みの最適化(NPO)を介してVQAデータでMLLMを直接微調整するベースラインを上回ることを示しています。
私たちのコードは、受け入れられるとリリースされます。

要約(オリジナル)

Recent progress in Machine Unlearning (MU) has introduced solutions for the selective removal of private or sensitive information encoded within deep neural networks. Nonetheless, MU for Multimodal Large Language Models (MLLMs) remains in its nascent phase. Therefore, we propose to reformulate the task of multimodal MU in the era of MLLMs, which aims to erase only the visual patterns associated with a given entity while preserving the corresponding textual knowledge encoded within the original parameters of the language model backbone. Furthermore, we develop a novel geometry-constrained gradient ascent method MMUnlearner. It updates the weights of MLLMs with a weight saliency map jointly restricted by the remaining concepts and textual knowledge during unlearning, thereby preserving parameters essential for non-target knowledge. Extensive experiments demonstrate that MMUnlearner surpasses baselines that finetuning MLLMs with VQA data directly through Gradient Ascent (GA) or Negative Preference Optimization (NPO), across all evaluation dimensions. Our code will be released upon acceptance.

arxiv情報

著者 Jiahao Huo,Yibo Yan,Xu Zheng,Yuanhuiyi Lyu,Xin Zou,Zhihua Wei,Xuming Hu
発行日 2025-05-20 15:47:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MMUnlearner: Reformulating Multimodal Machine Unlearning in the Era of Multimodal Large Language Models はコメントを受け付けていません

Internal Chain-of-Thought: Empirical Evidence for Layer-wise Subtask Scheduling in LLMs

要約

大規模な言語モデル(LLMS)が$ \ textIT {内部チェーンオブオブチャーチ} $を示すことを示します。それらは、レイヤーごとの複合タスクを順次分解して実行します。
2つの主張は、私たちの研究を根拠にします。(i)異なるネットワークの深さで異なるサブタスクが学習され、(ii)これらのサブタスクはレイヤー間で順次実行されます。
15の2段階の複合タスクのベンチマークでは、コンテキストからレイヤーからレイヤーを使用し、新しいクロスタスクパッチング方法を提案し、(i)を確認します。
クレーム(II)を調べるために、logitlensを適用して隠された状態をデコードし、一貫した層状実行パターンを明らかにします。
さらに、実際の$ \ Text {Trace} $ベンチマークで分析を再現し、同じ段階的なダイナミクスを観察します。
一緒になって、私たちの結果は、サブタスク(または命令)を内部的に計画および実行する能力を示し、微調整された命令レベルのアクティベーションステアリングの手段を開くことにより、LLMSの透明性を高めます。

要約(オリジナル)

We show that large language models (LLMs) exhibit an $\textit{internal chain-of-thought}$: they sequentially decompose and execute composite tasks layer-by-layer. Two claims ground our study: (i) distinct subtasks are learned at different network depths, and (ii) these subtasks are executed sequentially across layers. On a benchmark of 15 two-step composite tasks, we employ layer-from context-masking and propose a novel cross-task patching method, confirming (i). To examine claim (ii), we apply LogitLens to decode hidden states, revealing a consistent layerwise execution pattern. We further replicate our analysis on the real-world $\text{TRACE}$ benchmark, observing the same stepwise dynamics. Together, our results enhance LLMs transparency by showing their capacity to internally plan and execute subtasks (or instructions), opening avenues for fine-grained, instruction-level activation steering.

arxiv情報

著者 Zhipeng Yang,Junzhuo Li,Siyu Xia,Xuming Hu
発行日 2025-05-20 15:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Internal Chain-of-Thought: Empirical Evidence for Layer-wise Subtask Scheduling in LLMs はコメントを受け付けていません

Breaking Bad Tokens: Detoxification of LLMs Using Sparse Autoencoders

要約

大規模な言語モデル(LLM)は、ユーザー向けアプリケーションで遍在していますが、冒とく、下品、軽rog的な発言など、望ましくない有毒な出力を生成します。
多数の解毒方法が存在しますが、ほとんどが広範な表面レベルの修正を適用するため、脱獄攻撃によって簡単に回避できます。
このホワイトペーパーでは、スパース自動エンコーダー(SAE)を活用して、モデルの残留ストリームの毒性関連方向を特定し、対応するデコーダーベクトルを使用して標的アクティブ化ステアリングを実行します。
3層のステアリング攻撃性を導入し、GPT-2 SmallおよびGemma-2-2Bでそれらを評価し、毒性の低下と言語流ency性とのトレードオフを明らかにします。
より強い操縦強度では、これらの因果的介入は、攻撃性に応じてGPT-2の小規模で顕著に低下する可能性がありますが、毒性を最大20%減らす際の競合ベースラインを上回ります。
重要なことに、ステアリング時の標準のNLPベンチマークスコアは安定したままであり、モデルの知識と一般的な能力が保存されていることを示しています。
さらに、より広いSAESの機能分割が安全性の介入を妨げ、デンタングされた機能学習の重要性を強調していることを示しています。
私たちの調査結果は、LLM解毒のためのSAEベースの因果介入の約束と現在の制限の両方を強調しており、より安全な言語モデルの展開に関する実用的なガイドラインをさらに示唆しています。

要約(オリジナル)

Large language models (LLMs) are now ubiquitous in user-facing applications, yet they still generate undesirable toxic outputs, including profanity, vulgarity, and derogatory remarks. Although numerous detoxification methods exist, most apply broad, surface-level fixes and can therefore easily be circumvented by jailbreak attacks. In this paper we leverage sparse autoencoders (SAEs) to identify toxicity-related directions in the residual stream of models and perform targeted activation steering using the corresponding decoder vectors. We introduce three tiers of steering aggressiveness and evaluate them on GPT-2 Small and Gemma-2-2B, revealing trade-offs between toxicity reduction and language fluency. At stronger steering strengths, these causal interventions surpass competitive baselines in reducing toxicity by up to 20%, though fluency can degrade noticeably on GPT-2 Small depending on the aggressiveness. Crucially, standard NLP benchmark scores upon steering remain stable, indicating that the model’s knowledge and general abilities are preserved. We further show that feature-splitting in wider SAEs hampers safety interventions, underscoring the importance of disentangled feature learning. Our findings highlight both the promise and the current limitations of SAE-based causal interventions for LLM detoxification, further suggesting practical guidelines for safer language-model deployment.

arxiv情報

著者 Agam Goyal,Vedant Rathi,William Yeh,Yian Wang,Yuen Chen,Hari Sundaram
発行日 2025-05-20 15:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Breaking Bad Tokens: Detoxification of LLMs Using Sparse Autoencoders はコメントを受け付けていません