Leaky Thoughts: Large Reasoning Models Are Not Private Thinkers

要約

私たちは、個人エージェントとして使用される大きな推論モデルの推論の痕跡でプライバシーの漏れを研究しています。
最終出力とは異なり、推論の痕跡は多くの場合、内部で安全であると想定されます。
推論トレースには迅速な注入を介して抽出したり、誤って出力に漏れたりできることを示すことにより、この仮定に挑戦します。
調査とエージェント評価を通じて、テスト時間計算アプローチ、特に推論の手順の増加がそのような漏れを増幅することを実証します。
これらのテスト時間計算アプローチの予算を増やすことで、モデルは最終的な回答でより慎重になりますが、それはまた、より冗長になり、自分の考え方でより多くの漏れを推論するように導きます。
これにより、コアの緊張が明らかになります。推論はユーティリティを改善しますが、プライバシー攻撃の表面を拡大します。
私たちは、安全努力は、その出力だけでなく、モデルの内部思考にまで拡大しなければならないと主張します。

要約(オリジナル)

We study privacy leakage in the reasoning traces of large reasoning models used as personal agents. Unlike final outputs, reasoning traces are often assumed to be internal and safe. We challenge this assumption by showing that reasoning traces frequently contain sensitive user data, which can be extracted via prompt injections or accidentally leak into outputs. Through probing and agentic evaluations, we demonstrate that test-time compute approaches, particularly increased reasoning steps, amplify such leakage. While increasing the budget of those test-time compute approaches makes models more cautious in their final answers, it also leads them to reason more verbosely and leak more in their own thinking. This reveals a core tension: reasoning improves utility but enlarges the privacy attack surface. We argue that safety efforts must extend to the model’s internal thinking, not just its outputs.

arxiv情報

著者 Tommaso Green,Martin Gubri,Haritz Puerto,Sangdoo Yun,Seong Joon Oh
発行日 2025-06-18 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク