STAR-1: Safer Alignment of Reasoning LLMs with 1K Data

要約

このペーパーでは、DeepSeek-R1などの大規模な推論モデル(LRMS)向けに特別に設計された高品質のジャストスケールの安全データセットであるStar-1を紹介します。
STAR-1は、多様性、審議的推論、厳密なフィルタリングの3つの中核原則に基づいて構築されています。STAR-1は、LRMSの安全整合の重要なニーズに対処することを目的としています。
具体的には、さまざまなソースから既存のオープンソースの安全データセットを統合することから始めます。
次に、安全ポリシーをキュレートして、政策に基づいた審議的推論サンプルを生成します。
最後に、GPT-4oベースの安全性スコアリングシステムを適用して、ベストプラクティスに合わせたトレーニングの例を選択します。
実験結果は、STAR-1を備えた微調整LRMが4つのベンチマークで安全性能の平均40%の改善をもたらし、5つの推論タスクで測定された推論能力のわずかな減少(たとえば平均1.1%)のみを負担することを示しています。
広範なアブレーション研究は、STAR-1を構築する際の設計原則の重要性をさらに検証し、LRMSと従来のLLMの両方でその有効性を分析します。
プロジェクトページはhttps://ucsc-vlaa.github.io/star-1です。

要約(オリジナル)

This paper introduces STAR-1, a high-quality, just-1k-scale safety dataset specifically designed for large reasoning models (LRMs) like DeepSeek-R1. Built on three core principles — diversity, deliberative reasoning, and rigorous filtering — STAR-1 aims to address the critical needs for safety alignment in LRMs. Specifically, we begin by integrating existing open-source safety datasets from diverse sources. Then, we curate safety policies to generate policy-grounded deliberative reasoning samples. Lastly, we apply a GPT-4o-based safety scoring system to select training examples aligned with best practices. Experimental results show that fine-tuning LRMs with STAR-1 leads to an average 40% improvement in safety performance across four benchmarks, while only incurring a marginal decrease (e.g., an average of 1.1%) in reasoning ability measured across five reasoning tasks. Extensive ablation studies further validate the importance of our design principles in constructing STAR-1 and analyze its efficacy across both LRMs and traditional LLMs. Our project page is https://ucsc-vlaa.github.io/STAR-1.

arxiv情報

著者 Zijun Wang,Haoqin Tu,Yuhan Wang,Juncheng Wu,Jieru Mei,Brian R. Bartoldson,Bhavya Kailkhura,Cihang Xie
発行日 2025-04-02 17:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク