要約
Unsafe-Samplingまでの時間を定量化するためのフレームワークを開発します – 安全でない(毒性)応答をトリガーするために必要な大規模な言語モデル(LLM)世代の数。
安全でない反応は、よく整合したLLMで非常にまれであり、数千世代で1回のみ発生する可能性があるため、この量を推定することは困難です。
その結果、サンプルサンプリングまでの時間を直接推定するには、プロンプトごとに非常に多数の世代を持つトレーニングデータを収集する必要があります。
ただし、現実的なサンプリング予算では、多くの場合、すべてのプロンプトの安全でない結果を観察するのに十分な応答を生成できず、多くの場合、非セーフサンプリングが観察されず、推定と評価タスクが特に困難になります。
これに対処するために、この推定問題を生存分析の1つとしてフレーム化し、特定のプロンプトのunsafeサンプリングまでの時間サンプリングにおける実証的に較正された低予測境界(LPB)を開発し、適合予測の最近の進歩を活用します。
私たちの主要な革新は、凸最適化問題として定式化された、適応的でプロムプトごとのサンプリング戦略を設計することです。
この最適化されたサンプリング割り当てを導く目的関数は、LPBの構築に使用される推定器の分散を減らし、プロンプトごとの固定サンプリング予算を使用する素朴な方法よりも統計効率を改善するように設計されています。
合成データと実際のデータの両方での実験は、当社の理論的結果をサポートし、生成AIモデルにおける安全リスク評価の方法の実用的な有用性を実証しています。
要約(オリジナル)
We develop a framework to quantify the time-to-unsafe-sampling – the number of large language model (LLM) generations required to trigger an unsafe (e.g., toxic) response. Estimating this quantity is challenging, since unsafe responses are exceedingly rare in well-aligned LLMs, potentially occurring only once in thousands of generations. As a result, directly estimating time-to-unsafe-sampling would require collecting training data with a prohibitively large number of generations per prompt. However, with realistic sampling budgets, we often cannot generate enough responses to observe an unsafe outcome for every prompt, leaving the time-to-unsafe-sampling unobserved in many cases, making the estimation and evaluation tasks particularly challenging. To address this, we frame this estimation problem as one of survival analysis and develop a provably calibrated lower predictive bound (LPB) on the time-to-unsafe-sampling of a given prompt, leveraging recent advances in conformal prediction. Our key innovation is designing an adaptive, per-prompt sampling strategy, formulated as a convex optimization problem. The objective function guiding this optimized sampling allocation is designed to reduce the variance of the estimators used to construct the LPB, leading to improved statistical efficiency over naive methods that use a fixed sampling budget per prompt. Experiments on both synthetic and real data support our theoretical results and demonstrate the practical utility of our method for safety risk assessment in generative AI models.
arxiv情報
著者 | Hen Davidov,Gilad Freidkin,Shai Feldman,Yaniv Romano |
発行日 | 2025-06-16 15:21:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google