要約
文献と複数の専門家は、大規模な言語モデル(LLMS)からの多くの潜在的なリスクを指摘していますが、実際の害の直接的な測定値はまだほとんどありません。
AIリスク評価はこれまでのところ、モデルの機能の測定に焦点を当ててきましたが、モデルの機能はリスクの指標であり、リスクの尺度ではありません。
AIリスクシナリオのより良いモデリングと定量化は、この切断を埋めるのに役立ち、LLMの機能を有形の現実世界の害にリンクできます。
このペーパーは、既存のAIベンチマークを使用してリスク推定の作成を促進する方法を示すことにより、この分野に早期に貢献します。
専門家がAIベンチマークであるCybenchからの情報を使用して確率の推定値を生成するパイロット研究の結果について説明します。
この目的のために方法論が有望であると思われると同時に、定量的AIリスク評価における応用をさらに強化するためになされる改善に注目することを示しています。
要約(オリジナル)
The literature and multiple experts point to many potential risks from large language models (LLMs), but there are still very few direct measurements of the actual harms posed. AI risk assessment has so far focused on measuring the models’ capabilities, but the capabilities of models are only indicators of risk, not measures of risk. Better modeling and quantification of AI risk scenarios can help bridge this disconnect and link the capabilities of LLMs to tangible real-world harm. This paper makes an early contribution to this field by demonstrating how existing AI benchmarks can be used to facilitate the creation of risk estimates. We describe the results of a pilot study in which experts use information from Cybench, an AI benchmark, to generate probability estimates. We show that the methodology seems promising for this purpose, while noting improvements that can be made to further strengthen its application in quantitative AI risk assessment.
arxiv情報
著者 | Malcolm Murray,Henry Papadatos,Otter Quarks,Pierre-François Gimenez,Simeon Campos |
発行日 | 2025-03-10 13:00:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google