Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning

要約

大規模な言語モデル(LLM)は顕著な能力を示しますが、重大な安全性とプライバシーリスクも導入します。
現在の緩和戦略は、多くの場合、危険なシナリオでコンテキストの推論能力を維持できません。
代わりに、範囲を制限するLLMSを保護するために、敏感なパターンマッチングに大きく依存しています。
さらに、彼らは確立された安全性とプライバシー基準を見落としており、法的コンプライアンスの体系的なリスクにつながります。
これらのギャップに対処するために、コンテキストの完全性(CI)理論に従って、安全性とプライバシーの問題を文脈化されたコンプライアンスの問題に策定します。
CIフレームワークの下で、モデルには、GDPR、EU AI法、およびHIPAAの3つの重要な規制基準に合わせます。
具体的には、安全性とプライバシーの規範へのコンプライアンスを強化しながら、文脈的推論能力を奨励するために、ルールベースの報酬を備えたRehnection Learning(RL)を採用しています。
広範な実験を通じて、この方法が法的コンプライアンス(安全性/プライバシーベンチマークの精度が +17.64%改善される)を大幅に向上させるだけでなく、一般的な推論能力をさらに向上させることを実証します。
Openthinker-7Bの場合、その基本モデルQWEN2.5-7B-Instructを多様な被験者で大幅に上回る強力な推論モデルである場合、この方法は、それぞれMMLUおよびLegalBenchベンチマークの +2.05%および +8.98%の精度改善で、一般的な推論能力を高めます。

要約(オリジナル)

While Large Language Models (LLMs) exhibit remarkable capabilities, they also introduce significant safety and privacy risks. Current mitigation strategies often fail to preserve contextual reasoning capabilities in risky scenarios. Instead, they rely heavily on sensitive pattern matching to protect LLMs, which limits the scope. Furthermore, they overlook established safety and privacy standards, leading to systemic risks for legal compliance. To address these gaps, we formulate safety and privacy issues into contextualized compliance problems following the Contextual Integrity (CI) theory. Under the CI framework, we align our model with three critical regulatory standards: GDPR, EU AI Act, and HIPAA. Specifically, we employ reinforcement learning (RL) with a rule-based reward to incentivize contextual reasoning capabilities while enhancing compliance with safety and privacy norms. Through extensive experiments, we demonstrate that our method not only significantly enhances legal compliance (achieving a +17.64% accuracy improvement in safety/privacy benchmarks) but also further improves general reasoning capability. For OpenThinker-7B, a strong reasoning model that significantly outperforms its base model Qwen2.5-7B-Instruct across diverse subjects, our method enhances its general reasoning capabilities, with +2.05% and +8.98% accuracy improvement on the MMLU and LegalBench benchmark, respectively.

arxiv情報

著者 Wenbin Hu,Haoran Li,Huihao Jing,Qi Hu,Ziqian Zeng,Sirui Han,Heli Xu,Tianshu Chu,Peizhao Hu,Yangqiu Song
発行日 2025-05-20 16:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク