要約
エージェントAIをハイステークスの現実世界アプリケーションに迅速に統合するには、堅牢な監視メカニズムが必要です。
AI Control(AIC)の新興分野は、このような監視メカニズムを提供することを目的としていますが、実用的な採用は、オーバーヘッドの実装に大きく依存します。
この問題をより適切に研究するために、制御税の概念を紹介します。これは、制御対策をAIパイプラインに統合する運用コストと財務コストです。
私たちの作業は、AICの分野に3つの重要な貢献をしています。(1)制御税とマップ分類器のパフォーマンスを安全保証に定量化する理論的枠組みを紹介します。
(2)攻撃者モデルが微妙なバックドアをコードに挿入しながら、モデルを監視する一方で、これらの脆弱性を検出しようとする攻撃者モデルが微妙なバックドアをコードに挿入する敵対的な設定で、最先端の言語モデルの包括的な評価を実施します。
(3)制御プロトコルの経験的財務コストの見積もりを提供し、予算の監査などの実用的な制約を考慮しながら、安全性と費用対効果のバランスをとる最適化された監視戦略を開発します。
当社のフレームワークにより、開業医は安全保証を体系的にコストと結びつけ、さまざまな展開コンテキストにわたって原則的な経済的実現可能性評価を通じてAICを進めることにより、情報に基づいた意思決定を行うことができます。
要約(オリジナル)
The rapid integration of agentic AI into high-stakes real-world applications requires robust oversight mechanisms. The emerging field of AI Control (AIC) aims to provide such an oversight mechanism, but practical adoption depends heavily on implementation overhead. To study this problem better, we introduce the notion of Control tax — the operational and financial cost of integrating control measures into AI pipelines. Our work makes three key contributions to the field of AIC: (1) we introduce a theoretical framework that quantifies the Control Tax and maps classifier performance to safety assurances; (2) we conduct comprehensive evaluations of state-of-the-art language models in adversarial settings, where attacker models insert subtle backdoors into code while monitoring models attempt to detect these vulnerabilities; and (3) we provide empirical financial cost estimates for control protocols and develop optimized monitoring strategies that balance safety and cost-effectiveness while accounting for practical constraints like auditing budgets. Our framework enables practitioners to make informed decisions by systematically connecting safety guarantees with their costs, advancing AIC through principled economic feasibility assessment across different deployment contexts.
arxiv情報
| 著者 | Mikhail Terekhov,Zhen Ning David Liu,Caglar Gulcehre,Samuel Albanie |
| 発行日 | 2025-06-05 17:48:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google