Challenges in Ensuring AI Safety in DeepSeek-R1 Models: The Shortcomings of Reinforcement Learning Strategies

要約

大規模な言語モデル(LLM)は、推論、アラインメント、およびタスク固有のパフォーマンスにおいて顕著な進歩を遂げています。
ただし、これらのシステムで無害性を確保することは、特にDeepSeek-R1のような高度なモデルでは、重要な課題のままです。
このペーパーでは、DeepSeek-R1の有害な出力を減らすための主要なアプローチとしての強化学習(RL)の限界を調べ、それを監視された微調整(SFT)と比較します。
RLは推論機能を改善しますが、報酬のハッキング、一般化の障害、言語の混合、高い計算コストなどの課題に直面しています。
RLとSFTを組み合わせたハイブリッドトレーニングアプローチを提案して、堅牢な無害な削減を実現します。
DeepSeek-R1を責任を持って展開するための使用法の推奨事項と将来の指示も提示されます。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable progress in reasoning, alignment, and task-specific performance. However, ensuring harmlessness in these systems remains a critical challenge, particularly in advanced models like DeepSeek-R1. This paper examines the limitations of Reinforcement Learning (RL) as the primary approach for reducing harmful outputs in DeepSeek-R1 and compares it with Supervised Fine-Tuning (SFT). While RL improves reasoning capabilities, it faces challenges such as reward hacking, generalization failures, language mixing, and high computational costs. We propose hybrid training approaches combining RL and SFT to achieve robust harmlessness reduction. Usage recommendations and future directions for deploying DeepSeek-R1 responsibly are also presented.

arxiv情報

著者 Manojkumar Parmar,Yuvaraj Govindarajulu
発行日 2025-01-28 15:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク