Supervision policies can shape long-term risk management in general-purpose AI models

要約

大規模言語モデル (LLM) を含む汎用 AI (GPAI) モデルの急速な普及と展開は、AI 監督機関にとって前例のない課題をもたらしています。
私たちは、これらの組織は、監督能力を超える可能性が高く、リスクとインシデント報告の新たなエコシステムをナビゲートする必要があると仮説を立てています。
これを調査するために、コミュニティ主導のプラットフォーム、クラウドソーシングの取り組み、専門家の評価など、リスク、インシデント、またはハザードの報告エコシステムの多様な状況から抽出された特徴によってパラメーター化されたシミュレーション フレームワークを開発します。
当社は、非優先(先着順)、ランダム選択、優先順位(最も優先度の高いリスクに最初に対処する)、および多様性優先(優先度の高いリスクとリスク全体の包括的な対応のバランスをとる)の 4 つの監督方針を評価します。
種類)。
私たちの結果は、優先順位に基づいた政策と多様性を優先した政策が、影響の大きいリスク、特に専門家によって特定されたリスクを軽減するのにより効果的である一方、より広範なコミュニティによって報告された体系的な問題を不用意に無視してしまう可能性があることを示しています。
この見落としにより、特定の種類の報告を増幅させる一方で他の種類の報告を妨げるフィードバック ループが形成され、リスク全体の状況に対する偏った認識につながる可能性があります。
私たちは、100 万を超える ChatGPT インタラクションを含むいくつかの実世界のデータセットを使用してシミュレーション結果を検証し、そのうち 150,000 を超える会話が危険であると特定されました。
この検証は、AI リスクの監督に内在する複雑なトレードオフを強調し、社会で使用されている多様な GPAI モデルにわたって、リスク管理ポリシーの選択が AI リスクの将来の状況をどのように形作ることができるかを浮き彫りにします。

要約(オリジナル)

The rapid proliferation and deployment of General-Purpose AI (GPAI) models, including large language models (LLMs), present unprecedented challenges for AI supervisory entities. We hypothesize that these entities will need to navigate an emergent ecosystem of risk and incident reporting, likely to exceed their supervision capacity. To investigate this, we develop a simulation framework parameterized by features extracted from the diverse landscape of risk, incident, or hazard reporting ecosystems, including community-driven platforms, crowdsourcing initiatives, and expert assessments. We evaluate four supervision policies: non-prioritized (first-come, first-served), random selection, priority-based (addressing the highest-priority risks first), and diversity-prioritized (balancing high-priority risks with comprehensive coverage across risk types). Our results indicate that while priority-based and diversity-prioritized policies are more effective at mitigating high-impact risks, particularly those identified by experts, they may inadvertently neglect systemic issues reported by the broader community. This oversight can create feedback loops that amplify certain types of reporting while discouraging others, leading to a skewed perception of the overall risk landscape. We validate our simulation results with several real-world datasets, including one with over a million ChatGPT interactions, of which more than 150,000 conversations were identified as risky. This validation underscores the complex trade-offs inherent in AI risk supervision and highlights how the choice of risk management policies can shape the future landscape of AI risks across diverse GPAI models used in society.

arxiv情報

著者 Manuel Cebrian,Emilia Gomez,David Fernandez Llorca
発行日 2025-01-10 17:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.SI パーマリンク