From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring

要約

安全アライメントはほとんどの大規模な言語モデル(LLMS)に適用されていますが、LLMサービスプロバイダーは一般に、実際の製品の外部安全ガードレールとしてその後のモデレートを展開します。
既存のモデレーターは、主に従来の完全な検出を実践しています。これは、完全なLLM出力に基づいた有害性を決定し、高いサービス遅延を引き起こします。
最近の研究では、モデレーターがハーマンが検出された場合、モデレーターが生成を中間に監督し、出力を早期に停止するが、完全な検出パラダイムでトレーニングされたモデレーターを不完全な出力に直接適用し、パフォーマンスを低下させるトレーニング推論のギャップを導入することにもっと注意を払っています。
この論文では、部分的な検出をネイティブにサポートするデータとモデルのソリューションを形成する方法を探ります。
データについては、Tokenレベルのトレーニングの合理的な監督を提供するために、細かいアノテーションを備えた29Kプロンプト応答ペアからなるデータセットであるFineHarmを構築します。
次に、応答レベルとトークンレベルのラベルの二重監督で訓練されたストリーミングコンテンツモニターを提案し、LLMの出力ストリームに従って有害のタイムリーな判断を下すことができます。
実験では、SCMは、平均して応答で最初の18%のトークンのみを見ることで、完全な検出に匹敵するマクロF1スコアで0.95+を獲得することを示しています。
さらに、SCMは、安全アライメントを改善するための擬似耐性アノテーターとして機能し、DPOよりも無害なスコアが高くなります。

要約(オリジナル)

Though safety alignment has been applied to most large language models (LLMs), LLM service providers generally deploy a subsequent moderation as the external safety guardrail in real-world products. Existing moderators mainly practice a conventional full detection, which determines the harmfulness based on the complete LLM output, causing high service latency. Recent works pay more attention to partial detection where moderators oversee the generation midway and early stop the output if harmfulness is detected, but they directly apply moderators trained with the full detection paradigm to incomplete outputs, introducing a training-inference gap that lowers the performance. In this paper, we explore how to form a data-and-model solution that natively supports partial detection. For the data, we construct FineHarm, a dataset consisting of 29K prompt-response pairs with fine-grained annotations to provide reasonable supervision for token-level training. Then, we propose the streaming content monitor, which is trained with dual supervision of response- and token-level labels and can follow the output stream of LLM to make a timely judgment of harmfulness. Experiments show that SCM gains 0.95+ in macro F1 score that is comparable to full detection, by only seeing the first 18% of tokens in responses on average. Moreover, the SCM can serve as a pseudo-harmfulness annotator for improving safety alignment and lead to a higher harmlessness score than DPO.

arxiv情報

著者 Yang Li,Qiang Sheng,Yehan Yang,Xueyao Zhang,Juan Cao
発行日 2025-06-11 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク