MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety

要約

大規模な言語モデル(LLM)は、侵入などの敵対的な攻撃の影響を受けやすく、有害または危険な行動を引き出すことができます。
この脆弱性は、多言語の安全性データがしばしば制限される多言語設定では悪化しています。
したがって、多様な言語で安全でないコンテンツを検出およびフィルタリングできるガードレールを開発することは、実際のアプリケーションにLLMを展開するために重要です。
この作業では、迅速な分類の推論を備えた多言語ガードレールを紹介します。
私たちの方法は、(1)文化的および言語的に微妙なバリアントを組み込んだ合成多言語データ生成、(2)監視された微調整、および(3)カリキュラムベースのグループ相対政策最適化(GRPO)フレームワークをさらに改善するカリキュラムベースのグループ相対的な政策最適化(GRPO)フレームワークで構成されています。
実験結果は、多言語のガードレールであるMrguardが、ドメイン内およびドメイン外の言語の両方で最近のベースラインを15%以上上回ることを示しています。
また、プロンプトのコードスイッチングや低リソースの言語ディストラクタなど、多言語のバリエーションに対するMrGuardの堅牢性を評価し、これらの困難な条件下で安全判断を維持することを実証します。
Guardrailの多言語の推論能力により、説明を生成できます。これは、多言語コンテンツの節度における言語固有のリスクと曖昧さを理解するのに特に役立ちます。

要約(オリジナル)

Large Language Models (LLMs) are susceptible to adversarial attacks such as jailbreaking, which can elicit harmful or unsafe behaviors. This vulnerability is exacerbated in multilingual settings, where multilingual safety-aligned data is often limited. Thus, developing a guardrail capable of detecting and filtering unsafe content across diverse languages is critical for deploying LLMs in real-world applications. In this work, we introduce a multilingual guardrail with reasoning for prompt classification. Our method consists of: (1) synthetic multilingual data generation incorporating culturally and linguistically nuanced variants, (2) supervised fine-tuning, and (3) a curriculum-based Group Relative Policy Optimization (GRPO) framework that further improves performance. Experimental results demonstrate that our multilingual guardrail, MrGuard, consistently outperforms recent baselines across both in-domain and out-of-domain languages by more than 15%. We also evaluate MrGuard’s robustness to multilingual variations, such as code-switching and low-resource language distractors in the prompt, and demonstrate that it preserves safety judgments under these challenging conditions. The multilingual reasoning capability of our guardrail enables it to generate explanations, which are particularly useful for understanding language-specific risks and ambiguities in multilingual content moderation.

arxiv情報

著者 Yahan Yang,Soham Dan,Shuo Li,Dan Roth,Insup Lee
発行日 2025-05-20 16:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety はコメントを受け付けていません

sudoLLM : On Multi-role Alignment of Language Models

要約

ユーザー認証ベースのアクセス特権は、多くの安全性が批判的なシステムの重要な機能ですが、これまで大規模な言語モデル(LLM)の領域には存在していません。
この作業では、このようなアクセス制御システムからインスピレーションを得て、Multi-Role Aligned LLM、つまりユーザーアクセス権を説明し、振る舞うLLMを整列させる新しいフレームワークであるSudollmを紹介します。
Sudollmは、ユーザーベースの微妙なバイアスをクエリに注入し、LLMをトレーニングしてこのバイアス信号を利用して、ユーザーが承認されている場合にのみ機密情報を作成します。
このアプローチが、迅速なジェルブレイク攻撃に対するアライメント、一般化、および抵抗が大幅に改善されたことを示す実証結果を示します。
しばしば脱獄LLMSに悪用される言語モデリングの目的と安全アライメントの間の持続的な緊張は、注入されたバイアス信号の助けを借りていくらか解決されます。
私たちのフレームワークは、追加のセキュリティレイヤーとして意図されており、LLMSでエンドツーエンドの安全性を高めるための既存のガードレールメカニズムを補完します。

要約(オリジナル)

User authorization-based access privileges are a key feature in many safety-critical systems, but have thus far been absent from the large language model (LLM) realm. In this work, drawing inspiration from such access control systems, we introduce sudoLLM, a novel framework that results in multi-role aligned LLMs, i.e., LLMs that account for, and behave in accordance with, user access rights. sudoLLM injects subtle user-based biases into queries and trains an LLM to utilize this bias signal in order to produce sensitive information if and only if the user is authorized. We present empirical results demonstrating that this approach shows substantially improved alignment, generalization, and resistance to prompt-based jailbreaking attacks. The persistent tension between the language modeling objective and safety alignment, which is often exploited to jailbreak LLMs, is somewhat resolved with the aid of the injected bias signal. Our framework is meant as an additional security layer, and complements existing guardrail mechanisms for enhanced end-to-end safety with LLMs.

arxiv情報

著者 Soumadeep Saha,Akshay Chaturvedi,Joy Mahapatra,Utpal Garain
発行日 2025-05-20 16:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, I.2.7 | sudoLLM : On Multi-role Alignment of Language Models はコメントを受け付けていません

Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models

要約

推論に焦点を当てた大規模な言語モデル(LLMS)は、評価されていることを検出すると行動を変えることがあります。これは、ホーソーン現象に類似した効果であり、テストパフォーマンスのために最適化したり、実際の結果が存在しない場合に有害なプロンプトをより容易に順守することができます。
このような「テスト認識」がモデルの動作、特に安全整合にどのように影響するかについての最初の定量的研究を提示します。
(i)意識関連のアクティベーションを直線的に識別するホワイトボックスプロービングフレームワークを導入し、(ii)下流のパフォーマンスを監視しながらテストの認知度に向かってモデルを操縦します。
現実的なタスクと仮想的なタスクの両方にわたって、さまざまな最先端のオープンソースの推論LLMに方法を適用します。
我々の結果は、テストの認識が安全性の整合性に大きく影響し、モデルによって異なることを示しています。
この潜在的な効果を細かく制御することにより、私たちの仕事は、安全評価の実行方法に対する信頼を高めることを目指しています。

要約(オリジナル)

Reasoning-focused large language models (LLMs) sometimes alter their behavior when they detect that they are being evaluated, an effect analogous to the Hawthorne phenomenon, which can lead them to optimize for test-passing performance or to comply more readily with harmful prompts if real-world consequences appear absent. We present the first quantitative study of how such ‘test awareness’ impacts model behavior, particularly its safety alignment. We introduce a white-box probing framework that (i) linearly identifies awareness-related activations and (ii) steers models toward or away from test awareness while monitoring downstream performance. We apply our method to different state-of-the-art open-source reasoning LLMs across both realistic and hypothetical tasks. Our results demonstrate that test awareness significantly impact safety alignment, and is different for different models. By providing fine-grained control over this latent effect, our work aims to increase trust in how we perform safety evaluation.

arxiv情報

著者 Sahar Abdelnabi,Ahmed Salem
発行日 2025-05-20 17:03:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models はコメントを受け付けていません

Enhancing Learned Knowledge in LoRA Adapters Through Efficient Contrastive Decoding on Ascend NPUs

要約

Huaweiクラウドユーザーは、アプリケーション固有のニーズに合わせて大規模な言語モデル(LLMS)を微調整およびカスタマイズするための効率的でスケーラブルな方法としてLORA(低ランク適応)を活用します。
ただし、複雑な推論または深い文脈的理解を必要とするタスクは、貪欲な検索やビーム検索などの典型的なデコード方法を使用する場合、ベースモデルからのバイアスまたは干渉によって妨げられることがよくあります。
これらのバイアスは、ロラ固有の適応を活用する代わりに、基本モデルからの一般的またはタスクに依存しない応答につながる可能性があります。
このホワイトペーパーでは、ロラに適応したモデルでのタスク固有の知識の使用を最大化するように設計された新しいデコードフレームワークであるContrastive Lora Decoding(Cold)を紹介し、その結果、下流のパフォーマンスが向上します。
Coldは、LORAに適応したエキスパートモデルと対応するベースモデルの確率分布との分岐に基づいて、候補トークンをスコアリングすることにより、コントラストデコードを使用します。
このアプローチは、LORAの学習表現とより適切に整合するトークンを優先し、特殊なタスクのパフォーマンスを向上させます。
効果的ですが、各デコードステップには両方のモデルで複数のトークン候補を評価する必要があるため、コールドの素朴な実装は計算的に高価です。
これに対処するために、HuaweiのAscend NPUの最適化されたカーネルを開発しました。
コールドは、貪欲なデコードと比較してエンドツーエンドのレイテンシを28%削減しながら、タスクの精度が5.54%増加します。
この作業は、リソース制約の環境で微調整されたLLMの実用的で効率的なデコード戦略を提供し、クラウドとオンプレミスの両方の設定で応用データサイエンスに幅広い意味を持っています。

要約(オリジナル)

Huawei Cloud users leverage LoRA (Low-Rank Adaptation) as an efficient and scalable method to fine-tune and customize large language models (LLMs) for application-specific needs. However, tasks that require complex reasoning or deep contextual understanding are often hindered by biases or interference from the base model when using typical decoding methods like greedy or beam search. These biases can lead to generic or task-agnostic responses from the base model instead of leveraging the LoRA-specific adaptations. In this paper, we introduce Contrastive LoRA Decoding (CoLD), a novel decoding framework designed to maximize the use of task-specific knowledge in LoRA-adapted models, resulting in better downstream performance. CoLD uses contrastive decoding by scoring candidate tokens based on the divergence between the probability distributions of a LoRA-adapted expert model and the corresponding base model. This approach prioritizes tokens that better align with the LoRA’s learned representations, enhancing performance for specialized tasks. While effective, a naive implementation of CoLD is computationally expensive because each decoding step requires evaluating multiple token candidates across both models. To address this, we developed an optimized kernel for Huawei’s Ascend NPU. CoLD achieves up to a 5.54% increase in task accuracy while reducing end-to-end latency by 28% compared to greedy decoding. This work provides practical and efficient decoding strategies for fine-tuned LLMs in resource-constrained environments and has broad implications for applied data science in both cloud and on-premises settings.

arxiv情報

著者 Morgan Lindsay Heisler,Linzi Xing,Ge Shi,Hanieh Sadri,Gursimran Singh,Weiwei Zhang,Tao Ye,Ying Xiong,Yong Zhang,Zhenan Fan
発行日 2025-05-20 17:11:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Enhancing Learned Knowledge in LoRA Adapters Through Efficient Contrastive Decoding on Ascend NPUs はコメントを受け付けていません

Revealing and Mitigating the Challenge of Detecting Character Knowledge Errors in LLM Role-Playing

要約

大規模な言語モデル(LLM)のロールプレイングは、広範囲にわたる注目を集めています。
本物のキャラクターの知識は、現実的なLLMロールプレイングエージェントを構築するために重要です。
ただし、既存の作業は通常、役割を果たしながら、文字の既知の知識エラー(KKE)および未知の知識エラー(UKE)を検出するLLMSの能力の調査を見落としており、キャラクタートレーニング可能なコーパスの低品質の自動構造につながります。
この論文では、KKEとUKEのエラーを検出するLLMSの能力を評価するために、ロールケベンチを提案します。
結果は、最新のLLMでさえ、特によく知られている知識に関しては、これら2つのタイプのエラーを効果的に検出するのに苦労していることを示しています。
さまざまな推論戦略を実験し、エージェントベースの推論方法、自己リクレクションと自己疑念(S $^2 $ rd)を提案し、エラー検出機能を改善する可能性をさらに調査しました。
実験は、この方法がエラーキャラクターの知識を検出するLLMSの能力を効果的に改善することを示していますが、それは継続的な注意を必要とする問題のままです。

要約(オリジナル)

Large language model (LLM) role-playing has gained widespread attention. Authentic character knowledge is crucial for constructing realistic LLM role-playing agents. However, existing works usually overlook the exploration of LLMs’ ability to detect characters’ known knowledge errors (KKE) and unknown knowledge errors (UKE) while playing roles, which would lead to low-quality automatic construction of character trainable corpus. In this paper, we propose RoleKE-Bench to evaluate LLMs’ ability to detect errors in KKE and UKE. The results indicate that even the latest LLMs struggle to detect these two types of errors effectively, especially when it comes to familiar knowledge. We experimented with various reasoning strategies and propose an agent-based reasoning method, Self-Recollection and Self-Doubt (S$^2$RD), to explore further the potential for improving error detection capabilities. Experiments show that our method effectively improves the LLMs’ ability to detect error character knowledge, but it remains an issue that requires ongoing attention.

arxiv情報

著者 Wenyuan Zhang,Shuaiyi Nie,Jiawei Sheng,Zefeng Zhang,Xinghua Zhang,Yongquan He,Tingwen Liu
発行日 2025-05-20 17:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Revealing and Mitigating the Challenge of Detecting Character Knowledge Errors in LLM Role-Playing はコメントを受け付けていません

SensorLLM: Human-Intuitive Alignment of Multivariate Sensor Data with LLMs for Activity Recognition

要約

SensorllMは、ウェアラブルセンサーデータから人間の活動認識(HAR)を実行できるようにする2段階のフレームワークである2段階のフレームワークです。
LLMSは推論と一般化に優れていますが、限られたセマンティックコンテキスト、数値の複雑さ、シーケンスのばらつきにより、時系列の入力と格闘しています。
これらの課題に対処するために、多様なHARシナリオにまたがる人間に反対するセンサーテキストペアの質問を消費するデータセットであるSensorQAを構築します。
センサー言語アライメントステージを監督し、モデルがセンサーの入力をトレンドの説明と整列させます。
特別なトークンは、マークチャネルの境界に導入されています。
このアライメントにより、LLMは数値パターン、チャネル固有の信号、および可変長入力を解釈できます。
その後のタスク対応チューニング段階では、モデルを多変量HAR分類に適応させ、最先端の方法に一致またはそれを超えるパフォーマンスを実現します。
我々の結果は、人間に直感的なアライメントに導かれて、Sensorllmが効果的なセンサー学習者、推論者、および分類器になることを示しています。

要約(オリジナル)

We introduce SensorLLM, a two-stage framework that enables Large Language Models (LLMs) to perform human activity recognition (HAR) from wearable sensor data. While LLMs excel at reasoning and generalization, they struggle with time-series inputs due to limited semantic context, numerical complexity, and sequence variability. To address these challenges, we construct SensorQA, a question-answering dataset of human-intuitive sensor-text pairs spanning diverse HAR scenarios. It supervises the Sensor-Language Alignment stage, where the model aligns sensor inputs with trend descriptions. Special tokens are introduced to mark channel boundaries. This alignment enables LLMs to interpret numerical patterns, channel-specific signals, and variable-length inputs–without requiring human annotation. In the subsequent Task-Aware Tuning stage, we adapt the model for multivariate HAR classification, achieving performance that matches or exceeds state-of-the-art methods. Our results show that, guided by human-intuitive alignment, SensorLLM becomes an effective sensor learner, reasoner, and classifier–generalizing across varied HAR settings and paving the way for foundation model research in time-series analysis.

arxiv情報

著者 Zechen Li,Shohreh Deldari,Linyao Chen,Hao Xue,Flora D. Salim
発行日 2025-05-20 17:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SensorLLM: Human-Intuitive Alignment of Multivariate Sensor Data with LLMs for Activity Recognition はコメントを受け付けていません

Think Only When You Need with Large Hybrid-Reasoning Models

要約

最近の大規模な推論モデル(LRM)は、最終的な応答を作成する前に拡張思考プロセスを組み込むことにより、従来の大規模な言語モデル(LLMS)に対して実質的に改善された推論機能を示しています。
ただし、過度に長い思考は、トークンの消費とレイテンシの点でかなりの間接的なオーバーヘッドを導入します。これは、単純なクエリには特に不要です。
この作業では、ユーザークエリのコンテキスト情報に基づいて思考を実行できるかどうかを適応的に決定できる最初の種類のモデルである大規模なハイブリッドリレイニングモデル(LHRMS)を導入します。
これを達成するために、ハイブリッド微調整(HFT)をコールドスタートとして含む2段階のトレーニングパイプラインを提案し、その後、提案されたハイブリッドグループポリシー最適化(HGPO)を使用して、適切な思考モードを暗黙的に学習するためのオンライン強化学習を提案します。
さらに、ハイブリッド精度と呼ばれるメトリックを導入して、ハイブリッド思考のモデルの機能を定量的に評価します。
広範な実験結果は、LHRMがさまざまな難易度とタイプのクエリについてハイブリッド思考を適応的に実行できることを示しています。
推論と一般的な能力において、既存のLRMとLLMを上回り、効率を大幅に改善します。
一緒に、私たちの仕事は、拡張思考プロセスの適切な使用の再考を提唱し、ハイブリッド思考システムを構築するための確固たる出発点を提供します。

要約(オリジナル)

Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model’s capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.

arxiv情報

著者 Lingjie Jiang,Xun Wu,Shaohan Huang,Qingxiu Dong,Zewen Chi,Li Dong,Xingxing Zhang,Tengchao Lv,Lei Cui,Furu Wei
発行日 2025-05-20 17:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Think Only When You Need with Large Hybrid-Reasoning Models はコメントを受け付けていません

General-Reasoner: Advancing LLM Reasoning Across All Domains

要約

強化学習(RL)は最近、大規模な言語モデル(LLM)の推論能力を高める上で強い可能性を実証しました。
特に、DeepSeek-R1-Zeroによって導入された「ゼロ」強化学習により、中間の監視付き微調整段階に依存することなく、ベースLLMの直接RLトレーニングが可能になります。
これらの進歩にもかかわらず、LLMの推論の現在の作業は、主にデータの豊富さと回答検証の容易さが原因で、主に数学的およびコーディングドメインに焦点を当てています。
これにより、そのようなモデルの適用性と一般化がより広範なドメインに制限されます。このドメインでは、質問には多様な回答表現があり、データはより少ないです。
この論文では、多様なドメイン全体のLLM推論能力を強化するために設計された新しいトレーニングパラダイムである一般的な季節を提案します。
私たちの重要な貢献には、次のものが含まれます。(1)幅広い分野をカバーするWebクローリングによってキュレーションされた検証可能な回答を含む、質問の大規模で高品質のデータセットの構築。
(2)伝統的なルールベースの検証を、考え方と文脈の認識の能力に置き換える生成モデルベースの回答検証を開発する。
一連のモデルをトレーニングし、物理学、化学、金融、電子機器などの広いドメインをカバーする幅広いデータセットでそれらを評価します。これらの12のベンチマークにわたる包括的な評価(例:MMLU-PRO、GPQA、SuperGPQA、Theoremqa、BBEH、MATH AMの一般的なパフォーマンスを維持する一般的なraseferingのパフォーマンスを実証していることが示されています。
数学的推論タスクにおける有効性。

要約(オリジナル)

Reinforcement learning (RL) has recently demonstrated strong potential in enhancing the reasoning capabilities of large language models (LLMs). Particularly, the ‘Zero’ reinforcement learning introduced by Deepseek-R1-Zero, enables direct RL training of base LLMs without relying on an intermediate supervised fine-tuning stage. Despite these advancements, current works for LLM reasoning mainly focus on mathematical and coding domains, largely due to data abundance and the ease of answer verification. This limits the applicability and generalization of such models to broader domains, where questions often have diverse answer representations, and data is more scarce. In this paper, we propose General-Reasoner, a novel training paradigm designed to enhance LLM reasoning capabilities across diverse domains. Our key contributions include: (1) constructing a large-scale, high-quality dataset of questions with verifiable answers curated by web crawling, covering a wide range of disciplines; and (2) developing a generative model-based answer verifier, which replaces traditional rule-based verification with the capability of chain-of-thought and context-awareness. We train a series of models and evaluate them on a wide range of datasets covering wide domains like physics, chemistry, finance, electronics etc. Our comprehensive evaluation across these 12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC) demonstrates that General-Reasoner outperforms existing baseline methods, achieving robust and generalizable reasoning performance while maintaining superior effectiveness in mathematical reasoning tasks.

arxiv情報

著者 Xueguang Ma,Qian Liu,Dongfu Jiang,Ge Zhang,Zejun Ma,Wenhu Chen
発行日 2025-05-20 17:41:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | General-Reasoner: Advancing LLM Reasoning Across All Domains はコメントを受け付けていません

Reward Reasoning Model

要約

報酬モデルは、人間の期待に合わせた出力に大きな言語モデルを導く上で重要な役割を果たします。
ただし、テスト時間計算を効果的に利用して報酬モデルのパフォーマンスを向上させるオープンチャレンジは残っています。
この作業では、最終報酬を生成する前に意図的な推論プロセスを実行するように特別に設計された報酬推論モデル(RRM)を紹介します。
チェーンオブシェアの推論を通じて、RRMSは、適切な報酬がすぐには明らかではない場合、複雑なクエリの追加のテスト時間計算を活用します。
RRMSを開発するために、トレーニングデータとして明示的な推論トレースを必要とせずに、自己進化した報酬推論機能を促進する強化学習フレームワークを実装します。
実験結果は、RRMが多様なドメイン全体の報酬モデリングベンチマークで優れたパフォーマンスを達成することを示しています。
特に、RRMが適応的にテスト時間計算を活用して、報酬の精度をさらに向上させることができることを示しています。
事前に処理された報酬推論モデルは、https://huggingface.co/reward-rasoiningで入手できます。

要約(オリジナル)

Reward models play a critical role in guiding large language models toward outputs that align with human expectations. However, an open challenge remains in effectively utilizing test-time compute to enhance reward model performance. In this work, we introduce Reward Reasoning Models (RRMs), which are specifically designed to execute a deliberate reasoning process before generating final rewards. Through chain-of-thought reasoning, RRMs leverage additional test-time compute for complex queries where appropriate rewards are not immediately apparent. To develop RRMs, we implement a reinforcement learning framework that fosters self-evolved reward reasoning capabilities without requiring explicit reasoning traces as training data. Experimental results demonstrate that RRMs achieve superior performance on reward modeling benchmarks across diverse domains. Notably, we show that RRMs can adaptively exploit test-time compute to further improve reward accuracy. The pretrained reward reasoning models are available at https://huggingface.co/Reward-Reasoning.

arxiv情報

著者 Jiaxin Guo,Zewen Chi,Li Dong,Qingxiu Dong,Xun Wu,Shaohan Huang,Furu Wei
発行日 2025-05-20 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reward Reasoning Model はコメントを受け付けていません

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models

要約

生涯学習により、内部知識を継続的に更新することにより、大規模な言語モデル(LLMS)が進化する情報に適応することができます。
理想的なシステムは、既存の機能を維持し、信頼できる展開を確保しながら、効率的で幅広い更新をサポートする必要があります。
モデルの編集は、この目標の有望なソリューションとして際立っており、モデルの内部知識を修正するための焦点を絞った効率的な方法を提供します。
最近のパラダイムは顕著な進歩を遂げていますが、彼らはしばしば、大規模な実用的な生涯適応の要求を満たすのに苦労しています。
このギャップを埋めるために、トレーニング、サブジェクト、メモリフリーである根本的に新しい編集ソリューションであるUltraedit-Aを提案し、超スケーラブルで実世界の生涯モデル編集に特に適しています。
UltraEditは、軽量のリニア代数操作のみに依存してパラメーターシフトを計算する自己完結型プロセスを通じて編集を実行し、最小限のオーバーヘッドで高速で一貫したパラメーターの変更を可能にします。
生涯にわたる設定のスケーラビリティを向上させるために、UltraEditは、ターン全体で特徴統計を継続的に更新する生涯の正規化戦略を採用し、分布シフトに適応し、時間の経過とともに一貫性を維持することができます。
Ultraeditは、以前の最先端の方法よりも7倍以上速く編集速度を達成します。これは、VRAMの1/3未満を消費する最も速いアプローチでもあり、24GBの消費者グレードGPUで現在7B LLMを編集できる唯一の方法です。
さらに、これまでにフィールドで最大のデータセットであるUltraEditbenchを構築し、2Mを超える編集ペアを使用して、高精度を維持しながらこの方法が最大1mの編集をサポートしていることを示しています。
4つのデータセットと6つのモデルでの包括的な実験は、Ultraeditが一貫して多様なモデル編集シナリオ全体で優れたパフォーマンスを達成することを示しています。
私たちのコードは、https://github.com/xiaojiegu/ultraeditで入手できます。

要約(オリジナル)

Lifelong learning enables large language models (LLMs) to adapt to evolving information by continually updating their internal knowledge. An ideal system should support efficient, wide-ranging updates while preserving existing capabilities and ensuring reliable deployment. Model editing stands out as a promising solution for this goal, offering a focused and efficient way to revise a model’s internal knowledge. Although recent paradigms have made notable progress, they often struggle to meet the demands of practical lifelong adaptation at scale. To bridge this gap, we propose ULTRAEDIT-a fundamentally new editing solution that is training-, subject- and memory-free, making it particularly well-suited for ultra-scalable, real-world lifelong model editing. ULTRAEDIT performs editing through a self-contained process that relies solely on lightweight linear algebra operations to compute parameter shifts, enabling fast and consistent parameter modifications with minimal overhead. To improve scalability in lifelong settings, ULTRAEDIT employs a lifelong normalization strategy that continuously updates feature statistics across turns, allowing it to adapt to distributional shifts and maintain consistency over time. ULTRAEDIT achieves editing speeds over 7x faster than the previous state-of-the-art method-which was also the fastest known approach-while consuming less than 1/3 the VRAM, making it the only method currently capable of editing a 7B LLM on a 24GB consumer-grade GPU. Furthermore, we construct ULTRAEDITBENCH-the largest dataset in the field to date, with over 2M editing pairs-and demonstrate that our method supports up to 1M edits while maintaining high accuracy. Comprehensive experiments on four datasets and six models show that ULTRAEDIT consistently achieves superior performance across diverse model editing scenarios. Our code is available at: https://github.com/XiaojieGu/UltraEdit.

arxiv情報

著者 Xiaojie Gu,Guangxu Chen,Jungang Li,Jia-Chen Gu,Xuming Hu,Kai Zhang
発行日 2025-05-20 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models はコメントを受け付けていません