Personalized Federated Learning under Model Dissimilarity Constraints

要約

連合学習における決定的な課題の1つは、クライアント間の統計的不均一性の課題です。
この問題には、パーソナライズされたフェデレーション学習のための正規化された戦略であるカルラに対処します。これは、フェデレート設定に適応された1ワセルスタイン距離の代理で測定されるように、分布の違いに基づいてクライアント間のペアワイズモデルの非類似性を制約します。
これにより、戦略はクライアント間の非常に複雑な相互関係に適応することができます。たとえば、クラスター化されたアプローチがキャプチャできません。
不正確な投影確率的勾配アルゴリズムを提案して、戦略が定義する制約された問題を解決し、速度O(1/k)の静止ポイントの近隣に滑らかで非凸損失と収束することを理論的に示します。
合成および実際のフェデレーションデータセットに対するカルラの有効性を実証します。

要約(オリジナル)

One of the defining challenges in federated learning is that of statistical heterogeneity among clients. We address this problem with KARULA, a regularized strategy for personalized federated learning, which constrains the pairwise model dissimilarities between clients based on the difference in their distributions, as measured by a surrogate for the 1-Wasserstein distance adapted for the federated setting. This allows the strategy to adapt to highly complex interrelations between clients, that e.g., clustered approaches fail to capture. We propose an inexact projected stochastic gradient algorithm to solve the constrained problem that the strategy defines, and show theoretically that it converges with smooth, possibly non-convex losses to a neighborhood of a stationary point with rate O(1/K). We demonstrate the effectiveness of KARULA on synthetic and real federated data sets.

arxiv情報

著者 Samuel Erickson,Mikael Johansson
発行日 2025-05-15 16:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Personalized Federated Learning under Model Dissimilarity Constraints はコメントを受け付けていません

Batched Nonparametric Bandits via k-Nearest Neighbor UCB

要約

バッチ付きノンパラメトリックコンテキストバンディットでシーケンシャルな意思決定を研究します。そこでは、少数のバッチに分割された有限の地平線でアクションが選択されます。
オンラインフィードバックが制限されている医学やマーケティングなどのドメインの制約に動機付けられています。適応性のあるk-nearest neight(k-nn)回帰を組み合わせたノンパラメトリックアルゴリズムを提案します。
私たちの方法であるBank-UCBは、完全にノンパラメトリックであり、コンテキストのディメンションに適応し、実装が簡単です。
パラメトリックまたはビニングベースの推定器に依存している以前の作業とは異なり、Bank-UCBはローカルジオメトリを使用して報酬を推定し、適応的に調査と搾取をバランスさせます。
標準的なリプシッツの滑らかさとマージンの仮定の下でほぼ最適な後悔保証を提供します。これは、バッチ全体で後悔をバランスさせ、最小限の最適レートを達成する理論的に動機付けられたバッチスケジュールを使用します。
合成および実世界のデータセットに関する経験的評価は、Bank-UCBが一貫してビニングベースのベースラインを上回ることを示しています。

要約(オリジナル)

We study sequential decision-making in batched nonparametric contextual bandits, where actions are selected over a finite horizon divided into a small number of batches. Motivated by constraints in domains such as medicine and marketing — where online feedback is limited — we propose a nonparametric algorithm that combines adaptive k-nearest neighbor (k-NN) regression with the upper confidence bound (UCB) principle. Our method, BaNk-UCB, is fully nonparametric, adapts to the context dimension, and is simple to implement. Unlike prior work relying on parametric or binning-based estimators, BaNk-UCB uses local geometry to estimate rewards and adaptively balances exploration and exploitation. We provide near-optimal regret guarantees under standard Lipschitz smoothness and margin assumptions, using a theoretically motivated batch schedule that balances regret across batches and achieves minimax-optimal rates. Empirical evaluations on synthetic and real-world datasets demonstrate that BaNk-UCB consistently outperforms binning-based baselines.

arxiv情報

著者 Sakshi Arya
発行日 2025-05-15 17:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G08, 62L05, 68Q32, 68T05, cs.LG, F.2.2, math.ST, stat.ME, stat.ML, stat.TH | Batched Nonparametric Bandits via k-Nearest Neighbor UCB はコメントを受け付けていません

Learning Nonlinear Dynamics in Physical Modelling Synthesis using Neural Ordinary Differential Equations

要約

モーダル合成方法は、分散された音楽システムをモデル化するための長年のアプローチです。
場合によっては、幾何学的な非線形性を処理するために拡張機能が可能です。
そのようなケースの1つは、文字列の高振幅振動です。幾何学的な非線形効果は、ピッチグライドやストライク振幅への明るさの依存性など、知覚的に重要な効果につながります。
モーダル分解は、通常の微分方程式の結合非線形系につながります。
適用された機械学習アプローチ(特にニューラルの通常の微分方程式)の最近の研究は、データから自動的に電子回路などの消滅システムをモデル化するために使用されています。
この作業では、分散された音楽システムをモデル化するための神経の通常の微分方程式とモーダル分解をどのように組み合わせることができるかを調べます。
提案されたモデルは、システムのモードの線形振動のための分析ソリューションを活用し、非線形の動的動作を説明するためにニューラルネットワークを使用します。
システムの物理パラメーターは、ネットワークアーキテクチャでパラメーターエンコーダーを必要とせずにトレーニング後も簡単にアクセスできます。
概念の最初の証明として、非線形横断文字列の合成データを生成し、システムの非線形ダイナミクスを再現するようにモデルを訓練できることを示します。
サウンドの例が提示されています。

要約(オリジナル)

Modal synthesis methods are a long-standing approach for modelling distributed musical systems. In some cases extensions are possible in order to handle geometric nonlinearities. One such case is the high-amplitude vibration of a string, where geometric nonlinear effects lead to perceptually important effects including pitch glides and a dependence of brightness on striking amplitude. A modal decomposition leads to a coupled nonlinear system of ordinary differential equations. Recent work in applied machine learning approaches (in particular neural ordinary differential equations) has been used to model lumped dynamic systems such as electronic circuits automatically from data. In this work, we examine how modal decomposition can be combined with neural ordinary differential equations for modelling distributed musical systems. The proposed model leverages the analytical solution for linear vibration of system’s modes and employs a neural network to account for nonlinear dynamic behaviour. Physical parameters of a system remain easily accessible after the training without the need for a parameter encoder in the network architecture. As an initial proof of concept, we generate synthetic data for a nonlinear transverse string and show that the model can be trained to reproduce the nonlinear dynamics of the system. Sound examples are presented.

arxiv情報

著者 Victor Zheleznov,Stefan Bilbao,Alec Wright,Simon King
発行日 2025-05-15 17:17:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, physics.comp-ph | Learning Nonlinear Dynamics in Physical Modelling Synthesis using Neural Ordinary Differential Equations はコメントを受け付けていません

Pharmacophore-Conditioned Diffusion Model for Ligand-Based De Novo Drug Design

要約

生物活性分子の開発は、特に構造的または機能的なデータを欠く新しいターゲットのために、創薬の中心的で時間的かつコストがかかる課題のままです。
ファーマコフォアモデリングは、生物学的標的に対する分子生物活性に必要な主要な特徴をキャプチャするための代替案を提示します。
この作業では、3D分子生成のためのファーマコフォアコンディショニング拡散モデルであるPharmadiffを提示します。
Pharmadiffは、変圧器ベースのアーキテクチャを採用して、3Dファーマコフォアの原子ベースの表現を生成プロセスに統合し、事前に定義された薬物型仮説に沿った3D分子グラフの正確な生成を可能にします。
包括的なテストを通じて、Pharmadiffは、リガンドベースの薬物設計方法と比較して、3D薬物型の制約を一致させる上で優れた性能を示します。
さらに、標的タンパク質構造を必要とせずに、構造ベースの薬物設計におけるさまざまなタンパク質でより高いドッキングスコアを達成します。
Pharmacophoreモデリングを3D生成技術と統合することにより、Pharmadiffは合理的な薬物設計のための強力で柔軟なフレームワークを提供します。

要約(オリジナル)

Developing bioactive molecules remains a central, time- and cost-heavy challenge in drug discovery, particularly for novel targets lacking structural or functional data. Pharmacophore modeling presents an alternative for capturing the key features required for molecular bioactivity against a biological target. In this work, we present PharmaDiff, a pharmacophore-conditioned diffusion model for 3D molecular generation. PharmaDiff employs a transformer-based architecture to integrate an atom-based representation of the 3D pharmacophore into the generative process, enabling the precise generation of 3D molecular graphs that align with predefined pharmacophore hypotheses. Through comprehensive testing, PharmaDiff demonstrates superior performance in matching 3D pharmacophore constraints compared to ligand-based drug design methods. Additionally, it achieves higher docking scores across a range of proteins in structure-based drug design, without the need for target protein structures. By integrating pharmacophore modeling with 3D generative techniques, PharmaDiff offers a powerful and flexible framework for rational drug design.

arxiv情報

著者 Amira Alakhdar,Barnabas Poczos,Newell Washburn
発行日 2025-05-15 17:54:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Pharmacophore-Conditioned Diffusion Model for Ligand-Based De Novo Drug Design はコメントを受け付けていません

An AI-driven framework for the prediction of personalised health response to air pollution

要約

大気汚染は、公衆衛生に大きな脅威をもたらし、多くの呼吸器疾患および心血管疾患を引き起こしたり悪化させたりします。
さらに、気候変動は山火事や熱波などのより極端な気象現象をもたらしており、汚染のレベルを高め、汚染曝露の影響を悪化させる可能性があります。
個人的なセンシングの最近の進歩により、行動および生理学的データの収集が変化し、ヘルスケアの新たな改善の可能性につながりました。
個人の健康結果を監視および予測するために、時系列予測を行うためのAIの新しい機能とともに、このデータを活用したいと考えています。
したがって、ウェアラブルフィットネスデバイスからの生理学的データをリアルタイムの環境露出と統合することにより、汚染に対するパーソナライズされた健康応答を予測するための新しいワークフローを提示します。
データは、安全で倫理的な方法でさまざまなソースから収集され、クラウドベースのモジュラーフレームワーク内の汚染曝露に対する個々の健康反応を予測するためにAIモデルをトレーニングするために使用されます。
AIモデル(この場合の敵対的自動エンコーダーニューラルネットワーク)は、時間依存の健康シグナルを正確に再構築し、汚染に対する非線形反応をキャプチャすることを実証します。
転送学習は、個人のスマートウォッチからのデータを使用して適用されます。これにより、AIモデルの一般化能力が向上し、実際のユーザー生成データへのアプローチの適応性が示されます。

要約(オリジナル)

Air pollution poses a significant threat to public health, causing or exacerbating many respiratory and cardiovascular diseases. In addition, climate change is bringing about more extreme weather events such as wildfires and heatwaves, which can increase levels of pollution and worsen the effects of pollution exposure. Recent advances in personal sensing have transformed the collection of behavioural and physiological data, leading to the potential for new improvements in healthcare. We wish to capitalise on this data, alongside new capabilities in AI for making time series predictions, in order to monitor and predict health outcomes for an individual. Thus, we present a novel workflow for predicting personalised health responses to pollution by integrating physiological data from wearable fitness devices with real-time environmental exposures. The data is collected from various sources in a secure and ethical manner, and is used to train an AI model to predict individual health responses to pollution exposure within a cloud-based, modular framework. We demonstrate that the AI model — an Adversarial Autoencoder neural network in this case — accurately reconstructs time-dependent health signals and captures nonlinear responses to pollution. Transfer learning is applied using data from a personal smartwatch, which increases the generalisation abilities of the AI model and illustrates the adaptability of the approach to real-world, user-generated data.

arxiv情報

著者 Nazanin Zounemat Kermani,Sadjad Naderi,Claire H. Dilliway,Claire E. Heaney,Shrreya Behll,Boyang Chen,Hisham Abubakar-Waziri,Alexandra E. Porter,Marc Chadeau-Hyam,Fangxin Fang,Ian M. Adcock,Kian Fan Chung,Christopher C. Pain
発行日 2025-05-15 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.ao-ph | An AI-driven framework for the prediction of personalised health response to air pollution はコメントを受け付けていません

VQ-Logits: Compressing the Output Bottleneck of Large Language Models via Vector Quantized Logits

要約

大規模な言語モデル(LLM)は驚くべき成功を収めていますが、特に広範な出力の語彙により、重要な計算とメモリの課題に直面しています。
非表示状態を語彙サイズのロジットにマッピングする最終的な線形投影層は、多くの場合、モデルのパラメーターのかなりの部分と推論中の計算コストを構成します。
適応型ソフトマックスや階層ソフトマックスなどの既存の方法は、構造的な複雑さを導入します。
この論文では、VQ-Logitsを提案します。これは、ベクター量子化(VQ)を活用してLLM出力層のパラメーター数と計算負荷を大幅に削減する新しいアプローチを提案します。
VQ-Logitsは、大きなv * dmodel出力埋め込みマトリックスを、ベクターの埋め込みベクターの小さな共有コードブックに置き換えます(k << v)。 語彙の各トークンは、これらのKコードブックベクトルの1つにマッピングされます。 LLMは、このコンパクトコードブックのロジットを予測し、学習または事前に署名したマッピングを使用して、完全な語彙スペースに効率的に「散乱」します。 標準言語モデリングベンチマーク(例:Wikitext-103、C4)に関する広範な実験を通じて、VQ-Logitsは、出力層の最大99%のパラメーター削減とロジット計算で6倍のスピードアップを達成できることを実証します。 さらに、コードブックのサイズ、初期化、学習戦略に関する詳細なアブレーション研究を提供し、アプローチの堅牢性と有効性を紹介します。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success but face significant computational and memory challenges, particularly due to their extensive output vocabularies. The final linear projection layer, mapping hidden states to vocabulary-sized logits, often constitutes a substantial portion of the model’s parameters and computational cost during inference. Existing methods like adaptive softmax or hierarchical softmax introduce structural complexities. In this paper, we propose VQ-Logits, a novel approach that leverages Vector Quantization (VQ) to drastically reduce the parameter count and computational load of the LLM output layer. VQ-Logits replaces the large V * dmodel output embedding matrix with a small, shared codebook of K embedding vectors (K << V ). Each token in the vocabulary is mapped to one of these K codebook vectors. The LLM predicts logits over this compact codebook, which are then efficiently 'scattered' to the full vocabulary space using the learned or preassigned mapping. We demonstrate through extensive experiments on standard language modeling benchmarks (e.g., WikiText-103, C4) that VQ-Logits can achieve up to 99% parameter reduction in the output layer and 6x speedup in logit computation, with only a marginal 4% increase in perplexity compared to full softmax baselines. We further provide detailed ablation studies on codebook size, initialization, and learning strategies, showcasing the robustness and effectiveness of our approach.

arxiv情報

著者 Jintian Shao,Hongyi Huang,Jiayi Wu,YiMing Cheng,ZhiYu Wu,You Shan,MingKai Zheng
発行日 2025-05-15 11:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VQ-Logits: Compressing the Output Bottleneck of Large Language Models via Vector Quantized Logits はコメントを受け付けていません

Latent Action Pretraining from Videos

要約

General Action Models(LAPA)の潜在的なアクション前削除を導入します。これは、グラウンドトゥルースロボットアクションラベルのない視覚視覚アクション(VLA)モデルを事前に移すための監視されていない方法です。
既存のビジョン言語アクションモデルには、通常、可能なデータソースとスケールが大幅に制限されている、事前トレーニング中にヒトのテレオペレーターが通常収集するアクションラベルが必要です。
この作業では、ロボットアクションラベルがないインターネットスケールのビデオから学習する方法を提案します。
最初に、VQ-Vaeベースの目的を活用するアクション量子化モデルをトレーニングして、画像フレーム間で離散的な潜在アクションを学習し、次に潜在的なVLAモデルを前処理して、観測とタスクの説明からこれらの潜在アクションを予測し、最終的にLATENTアクションからロボットアクションにマッピングするための小規模ロボット操作データでVLAを獲得します。
実験結果は、この方法が、大規模なビデオからロボット操作ポリシーを訓練する既存の手法を大幅に上回ることを示しています。
さらに、言語条件付け、目に見えないオブジェクトへの一般化、目に見えない指示への意味的一般化を必要とする現実世界の操作タスクに関するロボットアクションラベルで訓練された最先端のVLAモデルを上回ります。
また、人間の操作ビデオでのみトレーニングは、肯定的な転送を示しており、Robotics FoundationモデルのWebスケールデータを活用する可能性を開きます。

要約(オリジナル)

We introduce Latent Action Pretraining for general Action models (LAPA), an unsupervised method for pretraining Vision-Language-Action (VLA) models without ground-truth robot action labels. Existing Vision-Language-Action models require action labels typically collected by human teleoperators during pretraining, which significantly limits possible data sources and scale. In this work, we propose a method to learn from internet-scale videos that do not have robot action labels. We first train an action quantization model leveraging VQ-VAE-based objective to learn discrete latent actions between image frames, then pretrain a latent VLA model to predict these latent actions from observations and task descriptions, and finally finetune the VLA on small-scale robot manipulation data to map from latent to robot actions. Experimental results demonstrate that our method significantly outperforms existing techniques that train robot manipulation policies from large-scale videos. Furthermore, it outperforms the state-of-the-art VLA model trained with robotic action labels on real-world manipulation tasks that require language conditioning, generalization to unseen objects, and semantic generalization to unseen instructions. Training only on human manipulation videos also shows positive transfer, opening up the potential for leveraging web-scale data for robotics foundation model.

arxiv情報

著者 Seonghyeon Ye,Joel Jang,Byeongguk Jeon,Sejune Joo,Jianwei Yang,Baolin Peng,Ajay Mandlekar,Reuben Tan,Yu-Wei Chao,Bill Yuchen Lin,Lars Liden,Kimin Lee,Jianfeng Gao,Luke Zettlemoyer,Dieter Fox,Minjoon Seo
発行日 2025-05-15 12:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO | Latent Action Pretraining from Videos はコメントを受け付けていません

RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward

要約

ロールプレイング会話エージェント(RPCA)は、役割の一貫性を維持する上で永続的な課題に直面しています。
これに対処するために、検証可能なロールアウェアネス報酬(VRAR)を統合する新しい強化学習フレームワークであるRaiden-R1を提案します。
この方法では、ロール固有のキーを評価することにより、定量化可能な報酬を生成するために、単数形と複数期のマイニング戦略の両方を導入します。
さらに、Multi-LLMコラボレーションを通じて高品質のロール認識チェーンデータセットを構築し、推論のコヒーレンスを強化する実験を実装します。
Raiden Benchmarkの実験は、Raiden-R1の優位性を示しています。14B-GRPOモデルは、スクリプトベースの知識と会話メモリメトリックの88.04%と88.65%の精度をそれぞれ達成し、ベースラインモデルをそれぞれ上回って堅牢性を維持します。
ケース分析により、競合するコンテキストの手がかりを解決し、一人称の物語の一貫性を維持するモデルの強化された能力がさらに明らかになります。
この作業は、RPCAトレーニングにおける非定量化性ギャップを埋め、ロール認識の推論パターンに関する洞察を提供し、RPCAの開発を進めます。

要約(オリジナル)

Role-playing conversational agents (RPCAs) face persistent challenges in maintaining role consistency. To address this, we propose RAIDEN-R1, a novel reinforcement learning framework that integrates Verifiable Role-Awareness Reward (VRAR). The method introduces both singular and multi-term mining strategies to generate quantifiable rewards by assessing role-specific keys. Additionally, we construct a high-quality, role-aware Chain-of-Thought dataset through multi-LLM collaboration, and implement experiments to enhance reasoning coherence. Experiments on the RAIDEN benchmark demonstrate RAIDEN-R1’s superiority: our 14B-GRPO model achieves 88.04% and 88.65% accuracy on Script-Based Knowledge and Conversation Memory metrics, respectively, outperforming baseline models while maintaining robustness. Case analyses further reveal the model’s enhanced ability to resolve conflicting contextual cues and sustain first-person narrative consistency. This work bridges the non-quantifiability gap in RPCA training and provides insights into role-aware reasoning patterns, advancing the development of RPCAs.

arxiv情報

著者 Zongsheng Wang,Kaili Sun,Bowen Wu,Qun Yu,Ying Li,Baoxun Wang
発行日 2025-05-15 12:22:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward はコメントを受け付けていません

ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention

要約

変圧器モデルは、トークンの依存関係をキャプチャするために自己関節に依存していますが、マルチヘッドの注意(MHA)の柔軟性を可能にしながら、位置情報を効果的に統合する上で課題に直面しています。
多くの場合、以前の方法はセマンティックと位置の違いを誤用したり、頭全体に均一な位置調整を適用したり、表現能力を制限する可能性があります。
このペーパーでは、ComplexFormerを紹介し、複雑なマルチヘッド注意CMHAを特徴としています。
CMHAは、各ヘッドが複雑な平面内で統一されたセマンティックと位置の違いを独立してモデル化し、回転とスケーリングとしての相互作用を表します。
complexFormerには、2つの重要な改善が組み込まれています。(1)ヘッドごとのクエリ/キー投影を、頭固有の複雑なサブスペース動作のための極形式の複雑なベクトルに変換するヘッドごとのオイラー変換。
(2)ヘッドごとの適応微分回転メカニズム、exp [I(ASMN、I) + Delta(PMN)、I)]。
言語モデリング、テキスト生成、コード生成、数学的推論に関する広範な実験により、複合施設は、ロープ変換者のような強力なベースラインと比較して、優れたパフォーマンス、大幅に低い世代の困惑、および長いコンテキストの一貫性を改善することを示しています。
ComplexFormerは強力なパラメーター効率を示し、より表現力のある適応性のある注意メカニズムを提供します。

要約(オリジナル)

Transformer models rely on self-attention to capture token dependencies but face challenges in effectively integrating positional information while allowing multi-head attention (MHA) flexibility. Prior methods often model semantic and positional differences disparately or apply uniform positional adjustments across heads, potentially limiting representational capacity. This paper introduces ComplexFormer, featuring Complex Multi-Head Attention-CMHA. CMHA empowers each head to independently model semantic and positional differences unified within the complex plane, representing interactions as rotations and scaling. ComplexFormer incorporates two key improvements: (1) a per-head Euler transformation, converting real-valued query/key projections into polar-form complex vectors for head-specific complex subspace operation; and (2) a per-head adaptive differential rotation mechanism, exp[i(Adapt(ASmn,i) + Delta(Pmn),i)], allowing each head to learn distinct strategies for integrating semantic angle differences (ASmn,i) with relative positional encodings (Delta(Pmn),i). Extensive experiments on language modeling, text generation, code generation, and mathematical reasoning show ComplexFormer achieves superior performance, significantly lower generation perplexity , and improved long-context coherence compared to strong baselines like RoPE-Transformers. ComplexFormer demonstrates strong parameter efficiency, offering a more expressive, adaptable attention mechanism.

arxiv情報

著者 Jintian Shao,Hongyi Huang,Jiayi Wu,Beiwen Zhang,ZhiYu Wu,You Shan,MingKai Zheng
発行日 2025-05-15 12:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention はコメントを受け付けていません

TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs

要約

大規模な言語モデル(LLM)の推論能力は、重量を構造的に除去することで改善できますが、既存の手法は主にトランスブロックのフィードフォワードネットワーク(FFN)を除去することに焦点を当てており、トランスアーキテクチャのコアであるマルチヘッドの注意(MHA)ブロックを効率的に利用することはできません。
この問題に対処するために、私たちは、非常に核心に、マルチヘッドの緊張プロセスとタッカー分解を通じてMHA圧縮を実行する新しい直感的なフレームワークを提案します。
これにより、複数の注意ヘッドの重みに共有された高次元サブスペースを実施することにより、MHA重量の高次元構造化された除去と圧縮の両方が可能になります。
このアプローチは、複数のベンチマークデータセットでLLMの推論機能を一貫して強化し、エンコーダのみおよびデコーダーのみのアーキテクチャの両方で、MHA重量で最大$ \ SIM 250 $の圧縮率を達成することを実証します。
さらに、提案された方法は、LLMの推論パフォーマンスのさらなる改善を実現するために、既存のFFNのみベースの除去技術とシームレスに組み合わせることができることを示しています。

要約(オリジナル)

The reasoning abilities of Large Language Models (LLMs) can be improved by structurally denoising their weights, yet existing techniques primarily focus on denoising the feed-forward network (FFN) of the transformer block, and can not efficiently utilise the Multi-head Attention (MHA) block, which is the core of transformer architectures. To address this issue, we propose a novel intuitive framework that, at its very core, performs MHA compression through a multi-head tensorisation process and the Tucker decomposition. This enables both higher-dimensional structured denoising and compression of the MHA weights, by enforcing a shared higher-dimensional subspace across the weights of the multiple attention heads. We demonstrate that this approach consistently enhances the reasoning capabilities of LLMs across multiple benchmark datasets, and for both encoder-only and decoder-only architectures, while achieving compression rates of up to $\sim 250$ times in the MHA weights, all without requiring any additional data, training, or fine-tuning. Furthermore, we show that the proposed method can be seamlessly combined with existing FFN-only-based denoising techniques to achieve further improvements in LLM reasoning performance.

arxiv情報

著者 Yuxuan Gu,Wuyang Zhou,Giorgos Iacovides,Danilo Mandic
発行日 2025-05-15 12:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs はコメントを受け付けていません