要約
影響力が大きく、潜在的に危険な機能は、レッドラインに達するずっと前に、早期警告射撃に分割することができ、またそうすべきです。
これらの早期警告射撃はそれぞれ、前兆機能に対応する必要があります。
それぞれの先駆的な機能は、赤い線に対応する、影響の大きい最終的な機能に近いことを示すスペクトル上にあります。
能力の進歩を有意義に検出および追跡するために、関連機関がそれに応じて行動できるようにする、段階的な情報交換フレームワークと結び付けられた危険な能力ゾーンの分類法 (ゾーニング分類法) を提案します。
Frontier AI 安全性コミットメントでは、署名者は、必要に応じて、任命された機関を含む信頼できる関係者とより詳細な情報を共有することを約束します (コミットメント VII)。
この文書では、ゾーニング分類法に基づいて、コミットメント VII で詳述されている情報共有を指定するための 4 つの推奨事項を示します。
(1) 初期機能は、展開前の内部評価を通じて判明次第、共有される必要があります。
(2) AI 安全性研究所 (AISI) は、前駆コンポーネントに関する情報を受け取り、調整するために任命された信頼できる主体である必要があります。
(3) AISI は、必要に応じて、前駆機能に関する情報を分類したり、管理対象としてマークしたりするなど、前駆機能がゾーンを通過してレッドラインに近づくにつれて、適切な情報保護インフラストラクチャを確立し、情報セキュリティの向上を保証する必要があります。
(4) ある地理的地域における影響の大きい能力の進歩は、他の地域のリスクにつながる可能性があり、国際的により包括的なリスク評価が必要である。
したがって、AISI は、国際機密取引に関する既存の枠組みに依存し、他の規制された高リスク部門から学んだ教訓を適用しながら、他の AISI と先駆的能力に関する情報を交換する必要があります。
要約(オリジナル)
High-impact and potentially dangerous capabilities can and should be broken down into early warning shots long before reaching red lines. Each of these early warning shots should correspond to a precursory capability. Each precursory capability sits on a spectrum indicating its proximity to a final high-impact capability, corresponding to a red line. To meaningfully detect and track capability progress, we propose a taxonomy of dangerous capability zones (a zoning taxonomy) tied to a staggered information exchange framework that enables relevant bodies to take action accordingly. In the Frontier AI Safety Commitments, signatories commit to sharing more detailed information with trusted actors, including an appointed body, as appropriate (Commitment VII). Building on our zoning taxonomy, this paper makes four recommendations for specifying information sharing as detailed in Commitment VII. (1) Precursory capabilities should be shared as soon as they become known through internal evaluations before deployment. (2) AI Safety Institutes (AISIs) should be the trusted actors appointed to receive and coordinate information on precursory components. (3) AISIs should establish adequate information protection infrastructure and guarantee increased information security as precursory capabilities move through the zones and towards red lines, including, if necessary, by classifying the information on precursory capabilities or marking it as controlled. (4) High-impact capability progress in one geographical region may translate to risk in other regions and necessitates more comprehensive risk assessment internationally. As such, AISIs should exchange information on precursory capabilities with other AISIs, relying on the existing frameworks on international classified exchanges and applying lessons learned from other regulated high-risk sectors.
arxiv情報
著者 | Matteo Pistillo,Charlotte Stix |
発行日 | 2024-12-13 13:38:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google