Antidistillation Sampling

要約

拡張された推論トレースを生成するフロンティアモデルは、モデルの蒸留を促進できる豊富なトークンシーケンスを誤って生成します。
この脆弱性を認識して、モデルの所有者は、モデルのパフォーマンスを損なうことなく蒸留の有効性を制限するサンプリング戦略を求める場合があります。
\ emph {diStillation sampling}は、まさにこの機能を提供します。
モデルのネクストトークン確率分布を戦略的に変更することにより、抗蒸留サンプリング毒性の痕跡を避難サンプリングし、モデルの実用性を維持しながら蒸留に効果的になります。
詳細については、https://antidistillation.comを参照してください。

要約(オリジナル)

Frontier models that generate extended reasoning traces inadvertently produce rich token sequences that can facilitate model distillation. Recognizing this vulnerability, model owners may seek sampling strategies that limit the effectiveness of distillation without compromising model performance. \emph{Antidistillation sampling} provides exactly this capability. By strategically modifying a model’s next-token probability distribution, antidistillation sampling poisons reasoning traces, rendering them significantly less effective for distillation while preserving the model’s practical utility. For further details, see https://antidistillation.com.

arxiv情報

著者 Yash Savani,Asher Trockman,Zhili Feng,Avi Schwarzschild,Alexander Robey,Marc Finzi,J. Zico Kolter
発行日 2025-04-17 17:54:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク