CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models

要約

世代のタスクにおける大規模な言語モデル(LLMS)の顕著なパフォーマンスにより、開業医は公開されているモデルを活用して、チャットボットや仮想アシスタントなどのカスタムアプリケーションを強化することができました。
ただし、これらのLLMを訓練または微調整するために使用されるデータはしばしば非公開であるため、攻撃者はデータを妥協し、バックドアをモデルに注入できます。
この論文では、LLMSの世代タスクのバックドア攻撃を緩和するために、Cleangenという名前の新しい推論時間防御を開発します。
CleanGenは、最先端の(SOTA)LLMと互換性のある軽量で効果的なデコード戦略です。
CleanGenの背後にある私たちの洞察は、他のLLMSと比較して、バックドイドLLMSが攻撃者が決定する内容を表すトークンに有意に高い確率を割り当てることです。
トークン確率のこれらの矛盾により、CleanGenは攻撃者が好む疑わしいトークンを識別し、同じ攻撃者によって侵害されない別のLLMによって生成されたトークンに置き換えることができ、それにより攻撃者が決定するコンテンツの生成を回避できます。
5つのSOTAバックドア攻撃に対してCleanGenを評価します。
私たちの結果は、CleanGenが5つのバックドア攻撃すべてで5つのSOTAベースライン防御と比較して、より低い攻撃成功率(ASR)を達成することを示しています。
さらに、CleanGenを展開するLLMSは、最小限の計算オーバーヘッドで良性ユーザークエリを提供する際に、応答に有用性を維持します。

要約(オリジナル)

The remarkable performance of large language models (LLMs) in generation tasks has enabled practitioners to leverage publicly available models to power custom applications, such as chatbots and virtual assistants. However, the data used to train or fine-tune these LLMs is often undisclosed, allowing an attacker to compromise the data and inject backdoors into the models. In this paper, we develop a novel inference time defense, named CLEANGEN, to mitigate backdoor attacks for generation tasks in LLMs. CLEANGEN is a lightweight and effective decoding strategy that is compatible with the state-of-the-art (SOTA) LLMs. Our insight behind CLEANGEN is that compared to other LLMs, backdoored LLMs assign significantly higher probabilities to tokens representing the attacker-desired contents. These discrepancies in token probabilities enable CLEANGEN to identify suspicious tokens favored by the attacker and replace them with tokens generated by another LLM that is not compromised by the same attacker, thereby avoiding generation of attacker-desired content. We evaluate CLEANGEN against five SOTA backdoor attacks. Our results show that CLEANGEN achieves lower attack success rates (ASR) compared to five SOTA baseline defenses for all five backdoor attacks. Moreover, LLMs deploying CLEANGEN maintain helpfulness in their responses when serving benign user queries with minimal added computational overhead.

arxiv情報

著者 Yuetai Li,Zhangchen Xu,Fengqing Jiang,Luyao Niu,Dinuka Sahabandu,Bhaskar Ramasubramanian,Radha Poovendran
発行日 2025-03-27 16:21:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models はコメントを受け付けていません

Model Assembly Learning with Heterogeneous Layer Weight Merging

要約

モデルのマージは、複数のモデルのパラメーターを組み合わせることにより、追加のデータやトレーニングなしで一般的な機能を獲得します。
以前のアプローチは、順列不変性を使用してパラメーターを同じ損失流域に整列させることにより、線形モード接続を実現します。
このホワイトペーパーでは、モデルアセンブリ学習(MAL)を紹介します。これは、オープンエンドモデル動物園の多様なモデルのパラメーターを繰り返し統合して、基本モデルの機能を強化するモデルマージのための新しいパラダイムです。
同一のアーキテクチャを必要とする以前の作品とは異なり、MALはレイヤー間の異種アーキテクチャのマージと選択的パラメーターを許可します。
具体的には、ベースモデルには、複数の事前に訓練されたモデルの異なる層からパラメーターを組み込むことができます。
不均一なパラメーターの合併の条件と基本的な設定を体系的に調査し、ベースモデルとターゲットモデル間のレイヤー幅のすべての可能な不一致に対処します。
さらに、重要な法律を確立し、MALを効果的に実施するための実用的なガイドラインを提供します。

要約(オリジナル)

Model merging acquires general capabilities without extra data or training by combining multiple models’ parameters. Previous approaches achieve linear mode connectivity by aligning parameters into the same loss basin using permutation invariance. In this paper, we introduce Model Assembly Learning (MAL), a novel paradigm for model merging that iteratively integrates parameters from diverse models in an open-ended model zoo to enhance the base model’s capabilities. Unlike previous works that require identical architectures, MAL allows the merging of heterogeneous architectures and selective parameters across layers. Specifically, the base model can incorporate parameters from different layers of multiple pre-trained models. We systematically investigate the conditions and fundamental settings of heterogeneous parameter merging, addressing all possible mismatches in layer widths between the base and target models. Furthermore, we establish key laws and provide practical guidelines for effectively implementing MAL.

arxiv情報

著者 Yi-Kai Zhang,Jin Wang,Xu-Xiang Zhong,De-Chuan Zhan,Han-Jia Ye
発行日 2025-03-27 16:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Model Assembly Learning with Heterogeneous Layer Weight Merging はコメントを受け付けていません

TSKANMixer: Kolmogorov-Arnold Networks with MLP-Mixer Model for Time Series Forecasting

要約

時系列の予測は、経済学、エネルギー、ヘルスケア、交通管理など、多様な分野での研究の焦点でした。
最近の作品は、時系列ミキサー(TSMixer)などの時系列モデルの革新的なアーキテクチャを導入しました。これは、データ内の空間的依存関係と時間的依存関係の両方を効果的にキャプチャすることにより、多層パーセプロン(MLPS)を活用して予測精度を高めることができます。
この論文では、Kan層(Tskanmixer)でTSMixerを変更することにより、時系列予測のためのKolmogorov-Arnold Networks(Kans)の機能を調査します。
実験結果は、Tskanmixerが複数のデータセットにわたって元のTSMixerの予測精度を改善する傾向があることを示しています。
私たちの結果は、カンズが従来のMLPを交換または延長することにより、時系列予測のパフォーマンスを改善するための有望な代替案であることを示しています。

要約(オリジナル)

Time series forecasting has long been a focus of research across diverse fields, including economics, energy, healthcare, and traffic management. Recent works have introduced innovative architectures for time series models, such as the Time-Series Mixer (TSMixer), which leverages multi-layer perceptrons (MLPs) to enhance prediction accuracy by effectively capturing both spatial and temporal dependencies within the data. In this paper, we investigate the capabilities of the Kolmogorov-Arnold Networks (KANs) for time-series forecasting by modifying TSMixer with a KAN layer (TSKANMixer). Experimental results demonstrate that TSKANMixer tends to improve prediction accuracy over the original TSMixer across multiple datasets, ranking among the top-performing models compared to other time series approaches. Our results show that the KANs are promising alternatives to improve the performance of time series forecasting by replacing or extending traditional MLPs.

arxiv情報

著者 Young-Chae Hong,Bei Xiao,Yangho Chen
発行日 2025-03-27 16:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TSKANMixer: Kolmogorov-Arnold Networks with MLP-Mixer Model for Time Series Forecasting はコメントを受け付けていません

COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing

要約

デジタル通信の急速な成長により、多言語コミュニティでは、コードミックス、特にヒンディー語の英語の広範な使用が促進されています。
既存のデータセットは、多くの場合、ローマのテキストに焦点を当て、範囲が限られているか、RealWorld言語のニュアンスをキャプチャできない合成データに依存しています。
人間の注釈は、コード混合テキストの自然性と受容性を評価するために重要です。
これらの課題に対処するために、DevanagariとRomanの両方のスクリプトで3つの専門家アノテーターによって評価された100,970インスタンスで構成されるコードミックステキストの最大の手動注釈付きデータセットであるCom-Linguaを紹介します。
データセットは、言語識別、マトリックス言語識別、スピーチの一部のタグ付け、名前付きエンティティ認識、翻訳の5つの基本的なNLPタスクをサポートしています。
Comilinguaを使用してこれらのタスクでLLMを評価し、現在の多言語モデリング戦略の制限を明らかにし、コード混合テキスト処理機能の改善の必要性を強調します。
Comi-Linguaは、https://huggingface.co/datasets/lingoiitgn/comilinguaで公開されています。

要約(オリジナル)

The rapid growth of digital communication has driven the widespread use of code-mixing, particularly Hindi-English, in multilingual communities. Existing datasets often focus on romanized text, have limited scope, or rely on synthetic data, which fails to capture realworld language nuances. Human annotations are crucial for assessing the naturalness and acceptability of code-mixed text. To address these challenges, We introduce COMI-LINGUA, the largest manually annotated dataset for code-mixed text, comprising 100,970 instances evaluated by three expert annotators in both Devanagari and Roman scripts. The dataset supports five fundamental NLP tasks: Language Identification, Matrix Language Identification, Part-of-Speech Tagging, Named Entity Recognition, and Translation. We evaluate LLMs on these tasks using COMILINGUA, revealing limitations in current multilingual modeling strategies and emphasizing the need for improved code-mixed text processing capabilities. COMI-LINGUA is publically availabe at: https://huggingface.co/datasets/LingoIITGN/COMI-LINGUA.

arxiv情報

著者 Rajvee Sheth,Himanshu Beniwal,Mayank Singh
発行日 2025-03-27 16:36:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing はコメントを受け付けていません

Intelligent IoT Attack Detection Design via ODLLM with Feature Ranking-based Knowledge Base

要約

モノのインターネット(IoT)デバイスの広範な採用は、特に分散型サービス拒否(DDOS)攻撃の頻度と洗練度の増加により、重要なサイバーセキュリティの課題をもたらしました。
従来の機械学習(ML)技術は、混合パターンと進化するパターンの複雑さのために、そのような攻撃を検出するのに不足していることがよくあります。
これに対処するために、インテリジェントIoTネットワーク攻撃検出のための微調整および知識ベース(KB)統合で拡張されたオンデバイスの大手言語モデル(ODLLMS)を活用する新しいフレームワークを提案します。
機能ランキング手法を実装し、モデル能力に合わせて調整された長いKBSと短いKBSの両方を構築することにより、提案されたフレームワークは、計算およびプライバシーの制限を克服しながら、DDO攻撃の効率的かつ正確な検出を保証します。
シミュレーション結果は、特にエッジコンピューティング環境でコンパクトモデルを使用する場合、最適化されたフレームワークが多様な攻撃タイプで優れた精度を達成することを示しています。
この作業は、リアルタイムのIoTセキュリティのためのスケーラブルで安全なソリューションを提供し、サイバーセキュリティにおけるエッジインテリジェンスの適用性を向上させます。

要約(オリジナル)

The widespread adoption of Internet of Things (IoT) devices has introduced significant cybersecurity challenges, particularly with the increasing frequency and sophistication of Distributed Denial of Service (DDoS) attacks. Traditional machine learning (ML) techniques often fall short in detecting such attacks due to the complexity of blended and evolving patterns. To address this, we propose a novel framework leveraging On-Device Large Language Models (ODLLMs) augmented with fine-tuning and knowledge base (KB) integration for intelligent IoT network attack detection. By implementing feature ranking techniques and constructing both long and short KBs tailored to model capacities, the proposed framework ensures efficient and accurate detection of DDoS attacks while overcoming computational and privacy limitations. Simulation results demonstrate that the optimized framework achieves superior accuracy across diverse attack types, especially when using compact models in edge computing environments. This work provides a scalable and secure solution for real-time IoT security, advancing the applicability of edge intelligence in cybersecurity.

arxiv情報

著者 Satvik Verma,Qun Wang,E. Wes Bethel
発行日 2025-03-27 16:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.NI | Intelligent IoT Attack Detection Design via ODLLM with Feature Ranking-based Knowledge Base はコメントを受け付けていません

LLM-Gomoku: A Large Language Model-Based System for Strategic Gomoku with Self-Play and Reinforcement Learning

要約

近年、大規模な言語モデル(LLM)は、自然言語処理(NLP)の大幅な進歩を示しており、生成、理解、および再協会の強力なCAPA速度を備えています。
これらのモデルでは、教育、インテリジェントな意思決定、ゲームのアプリケーションが見つかりました。
ただし、Gomokuのゲームで戦略的計画と意思決定のためにLLMSを効果的に利用することは依然として課題です。
この研究の目的は、LLMSに基づいてGomoku AIシステムを開発し、チェスをする人間の学習プロセスをシミュレートすることです。
このシステムは、Gomoku Strat-Egiesと論理を理解して適用して、合理的な決定を下すために署名されています。
研究方法には、モデルが「ボードの読み取り」、「ルールを理解する」、「戦略を選択」、「ポジションを評価する」ことを可能にし、自己プレイと補償学習を通じてその能力を促進することが含まれます。
結果は、このアプローチにより、移動位置のSE削除が大幅に改善され、違法な位置を生成する問題が解決され、並列位置評価を通じてプロセス時間が短縮されることを示しています。
大規模な自己プレイトレーニングの後、モデルのgomokuplaying機能が顕著に強化されました。

要約(オリジナル)

In recent years, large language models (LLMs) have shown significant advancements in natural language processing (NLP), with strong capa-bilities in generation, comprehension, and rea-soning. These models have found applications in education, intelligent decision-making, and gaming. However, effectively utilizing LLMs for strategic planning and decision-making in the game of Gomoku remains a challenge. This study aims to develop a Gomoku AI system based on LLMs, simulating the human learning process of playing chess. The system is de-signed to understand and apply Gomoku strat-egies and logic to make rational decisions. The research methods include enabling the model to ‘read the board,’ ‘understand the rules,’ ‘select strategies,’ and ‘evaluate positions,’ while en-hancing its abilities through self-play and rein-forcement learning. The results demonstrate that this approach significantly improves the se-lection of move positions, resolves the issue of generating illegal positions, and reduces pro-cess time through parallel position evaluation. After extensive self-play training, the model’s Gomoku-playing capabilities have been notably enhanced.

arxiv情報

著者 Hui Wang
発行日 2025-03-27 16:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLM-Gomoku: A Large Language Model-Based System for Strategic Gomoku with Self-Play and Reinforcement Learning はコメントを受け付けていません

Adaptive Orchestration for Large-Scale Inference on Heterogeneous Accelerator Systems Balancing Cost, Performance, and Resilience

要約

生成AIワークロードの急増により、運用コストを含めながらGPUと特殊なアクセラレータの両方を柔軟に活用できるスケーラブルな推論システムが必要になりました。
このペーパーでは、リアルタイムのコストと容量シグナルに基づいて不均一なアクセラレータ全体でリクエストを適応的に割り当てるハードウェアと存在する制御ループを提案します。
このアプローチは、コストが最適化されたモードと容量が最適化されたモードを動的にシフトすることにより、低レイテンシと高スループットを維持し、変動する可用性の下で高価な計算リソースを最も効率的に使用します。
安定した拡散モデルを使用して評価されたフレームワークは、一貫してレイテンシターゲットを満たし、容量不足中にトラフィックを自動的にリダイレクトし、可能な場合は低コストの加速器を活用します。
これらの結果は、ソフトウェアとハ​​ードウェアスタック全体にまたがるフィードバック駆動型の展開戦略が、限られた加速器容量に直面して回復力を維持しながら、組織が生成的なAIワークロードを効率的に拡大するのに役立つ方法を強調しています。

要約(オリジナル)

The surge in generative AI workloads has created a need for scalable inference systems that can flexibly harness both GPUs and specialized accelerators while containing operational costs. This paper proposes a hardware-agnostic control loop that adaptively allocates requests across heterogeneous accelerators based on real-time cost and capacity signals. The approach sustains low latency and high throughput by dynamically shifting between cost-optimized and capacity-optimized modes, ensuring the most efficient use of expensive compute resources under fluctuating availability. Evaluated using the Stable Diffusion model, the framework consistently meets latency targets, automatically redirects traffic during capacity shortfalls, and capitalizes on lower-cost accelerators when possible. These results highlight how a feedback-driven deployment strategy, spanning the entire software and hardware stack, can help organizations efficiently scale generative AI workloads while maintaining resilience in the face of limited accelerator capacity.

arxiv情報

著者 Yahav Biran,Imry Kissos
発行日 2025-03-27 17:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U01, cs.AI, cs.PF | Adaptive Orchestration for Large-Scale Inference on Heterogeneous Accelerator Systems Balancing Cost, Performance, and Resilience はコメントを受け付けていません

Elementwise Layer Normalization

要約

最近の論文では、層の正規化のドロップイン置換として動的タン(DYT)を提案しました。
この方法は、実用的な観点から経験的に十分に動機付けられ、魅力的ですが、理論的基盤がありません。
この作業では、数学的にDYTを導き出し、そうするために明確に定義された近似が必要であることを示します。
上記の近似をドロップすることにより、代替の要素ごとの変換が取得され、これを要素ごとのレイヤー正規化(ELN)と呼びます。
ELNは、DYTよりも層の正規化に似ていることを実証します。

要約(オリジナル)

A recent paper proposed Dynamic Tanh (DyT) as a drop-in replacement for Layer Normalization. Although the method is empirically well-motivated and appealing from a practical point of view, it lacks a theoretical foundation. In this work, we derive DyT mathematically and show that a well-defined approximation is needed to do so. By dropping said approximation, an alternative element-wise transformation is obtained, which we call Elementwise Layer Normalization (ELN). We demonstrate that ELN resembles Layer Normalization more accurately than DyT does.

arxiv情報

著者 Felix Stollenwerk
発行日 2025-03-27 17:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Elementwise Layer Normalization はコメントを受け付けていません

Outlier dimensions favor frequent tokens in language model

要約

最終層の外れ値の寸法、つまり、大部分の入力に対して極端なアクティベーションを表示する次元を研究します。
多くの異なる現代言語モデルで外れ値の寸法が生じることを示し、その機能を頻繁に予測するというヒューリスティックに戻ります。
さらに、残りの寸法に相殺された重量質量を割り当てることにより、モデルが文脈的に適切でないときにこのヒューリスティックをブロックする方法を示し、どのモデルパラメーターが外れ値の寸法を高めるか、トレーニング中に発生するかを調査します。
外れ値の寸法は、有用なトークン予測ヒューリスティックを実装するために、多くの異なるモデルによって発見された特殊なメカニズムであると結論付けています。

要約(オリジナル)

We study last-layer outlier dimensions, i.e.dimensions that display extreme activations for the majority of inputs. We show that outlier dimensions arise in many different modern language models, and trace their function back to the heuristic of constantly predicting frequent words. We further show how a model can block this heuristic when it is not contextually appropriate, by assigning a counterbalancing weight mass to the remaining dimensions, and we investigate which model parameters boost outlier dimensions and when they arise during training. We conclude that outlier dimensions are a specialized mechanism discovered by many distinct models to implement a useful token prediction heuristic.

arxiv情報

著者 Iuri Macocco,Nora Graichen,Gemma Boleda,Marco Baroni
発行日 2025-03-27 17:30:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Outlier dimensions favor frequent tokens in language model はコメントを受け付けていません

Collab: Controlled Decoding using Mixture of Agents for LLM Alignment

要約

大規模な言語モデル(LLMS)のアラインメントは、アプリケーションでの安全で信頼できる展開のために重要です。
人間のフィードバック(RLHF)からの強化学習は、LLMを人間の好みやより広範なユーティリティに合わせるための効果的な手法として浮上していますが、計算高価な数十億のモデルパラメーターを更新する必要があります。
対照的に、制御されたデコードは、再訓練なしで推論時間にモデルを整列させるメカニズムを提供します。
ただし、これらのタスクに内在する複雑さと変動性のため、単一エージェントデコードアプローチは、多様なタスクに適応するのに苦労しています。
ターゲットタスクでテスト時間パフォーマンスを強化するために、既存の既製のアライメントされたLLMポリシーを活用するエージェントベースのデコード戦略の混合を提案します。
エージェントコラボレーションの混合の精神のエージェントとして各事前のポリシーを扱うことで、複数のエージェントのトークンレベルの選択戦略を通じて推論時間アライメントを可能にするデコード方法を開発します。
トークンごとに、最も適切なLLMは、長期的なユーティリティメトリックに基づいたモデルのプールから動的に選択されます。
このポリシースイッチングメカニズムにより、各ステップで最適なモデル選択が保証され、デコード中のLLM間の効率的なコラボレーションと整合が可能になります。
提案されたアルゴリズムの理論分析は、与えられた既製モデルのターゲット報酬を介して表されるターゲットタスクに関して最適なパフォーマンスを確立します。
私たちは、単一エージェントデコードベースラインをめぐるこのアプローチのメリットを実証する、多様なタスクと好みに関するオープンソースアラインドモデルを使用して、包括的な経験的評価を実施します。
特に、Collabは現在のSOTAデコード戦略を上回り、GPT-4ベースのWin-Tieレートで最大1.56倍、71.89%の改善を達成します。

要約(オリジナル)

Alignment of Large Language models (LLMs) is crucial for safe and trustworthy deployment in applications. Reinforcement learning from human feedback (RLHF) has emerged as an effective technique to align LLMs to human preferences and broader utilities, but it requires updating billions of model parameters, which is computationally expensive. Controlled Decoding, by contrast, provides a mechanism for aligning a model at inference time without retraining. However, single-agent decoding approaches often struggle to adapt to diverse tasks due to the complexity and variability inherent in these tasks. To strengthen the test-time performance w.r.t the target task, we propose a mixture of agent-based decoding strategies leveraging the existing off-the-shelf aligned LLM policies. Treating each prior policy as an agent in the spirit of mixture of agent collaboration, we develop a decoding method that allows for inference-time alignment through a token-level selection strategy among multiple agents. For each token, the most suitable LLM is dynamically chosen from a pool of models based on a long-term utility metric. This policy-switching mechanism ensures optimal model selection at each step, enabling efficient collaboration and alignment among LLMs during decoding. Theoretical analysis of our proposed algorithm establishes optimal performance with respect to the target task represented via a target reward for the given off-the-shelf models. We conduct comprehensive empirical evaluations with open-source aligned models on diverse tasks and preferences, which demonstrates the merits of this approach over single-agent decoding baselines. Notably, Collab surpasses the current SoTA decoding strategy, achieving an improvement of up to 1.56x in average reward and 71.89% in GPT-4 based win-tie rate.

arxiv情報

著者 Souradip Chakraborty,Sujay Bhatt,Udari Madhushani Sehwag,Soumya Suvra Ghosal,Jiahao Qiu,Mengdi Wang,Dinesh Manocha,Furong Huang,Alec Koppel,Sumitra Ganesh
発行日 2025-03-27 17:34:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Collab: Controlled Decoding using Mixture of Agents for LLM Alignment はコメントを受け付けていません