Training Compute Thresholds: Features and Functions in AI Regulation

要約

米国と EU の規制当局は、大規模な社会的危害のリスクを引き起こす可能性のある汎用人工知能 (GPAI) モデルを特定するために、トレーニング コンピューティング (トレーニングで使用される計算操作の数) に基づくしきい値を使用しています。
私たちは、現時点では、トレーニング コンピューティングが、規制の監視とさらなる精査に値する GPAI モデルを特定するのに最適な指標であると主張します。
トレーニング コンピューティングは、モデルの機能およびリスクと相関関係があり、定量化可能であり、AI ライフサイクルの早い段階で測定でき、外部アクターによる検証が可能であるなどの利点があります。
これらの機能により、計算しきい値は、追加の規制要件や精査をトリガーするための初期フィルターとして機能するために、他の提案されたメトリクスよりもはるかに適したものになります。
ただし、トレーニング コンピューティングはリスクを完全に代用するものではありません。
したがって、適切な緩和策を決定するために、コンピューティングしきい値を単独で使用すべきではありません。
代わりに、通知要件などによる規制上の監視や、モデル評価やリスク評価などによるさらなる精査を正当化する、潜在的にリスクの高い GPAI モデルを検出するために使用する必要があります。その結果により、どの緩和策が適切であるかがわかる可能性があります。
実際、これは今日のコンピューティングしきい値の使用方法とほぼ一致しているようです。
GPAI テクノロジーと市場構造が進化するにつれて、規制当局はコンピューティングしきい値を更新し、他の指標でそれらを補完して規制審査プロセスに組み込む必要があります。

要約(オリジナル)

Regulators in the US and EU are using thresholds based on training compute–the number of computational operations used in training–to identify general-purpose artificial intelligence (GPAI) models that may pose risks of large-scale societal harm. We argue that training compute currently is the most suitable metric to identify GPAI models that deserve regulatory oversight and further scrutiny. Training compute correlates with model capabilities and risks, is quantifiable, can be measured early in the AI lifecycle, and can be verified by external actors, among other advantageous features. These features make compute thresholds considerably more suitable than other proposed metrics to serve as an initial filter to trigger additional regulatory requirements and scrutiny. However, training compute is an imperfect proxy for risk. As such, compute thresholds should not be used in isolation to determine appropriate mitigation measures. Instead, they should be used to detect potentially risky GPAI models that warrant regulatory oversight, such as through notification requirements, and further scrutiny, such as via model evaluations and risk assessments, the results of which may inform which mitigation measures are appropriate. In fact, this appears largely consistent with how compute thresholds are used today. As GPAI technology and market structures evolve, regulators should update compute thresholds and complement them with other metrics into regulatory review processes.

arxiv情報

著者 Lennart Heim,Leonie Koessler
発行日 2024-08-06 15:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG パーマリンク