公共部門における生成型 AI の急速な導入は、自動化された公的扶助から福祉サービスや移民手続きに至るまで、さまざまな用途を網羅しており、その変革の可能性を浮き彫りにすると同時に、徹底したリスク評価の差し迫った必要性を浮き彫りにしています。
AI の存在感が高まっているにもかかわらず、公共部門における AI 駆動システムに関連するリスクの評価は依然として十分に調査されていません。
さまざまな政府の政策や企業のガイドラインに由来する AI リスクの確立された分類に基づいて、私たちは公共部門における生成 AI によってもたらされる重大なリスクを調査し、そのマルチモーダルな機能を説明する範囲を拡大します。
さらに、生成 AI (SAIF) のリスクを評価するための体系的なデータ生成フレームワークを提案します。
SAIF には、リスクの分析、シナリオの設計、脱獄方法の適用、プロンプトの種類の検討という 4 つの主要な段階が含まれます。
さらに、SAIF は、新たなジェイルブレイク手法と進化するプロンプト タイプに対応できるように設計されており、それによって予期せぬリスク シナリオに対する効果的な対応が可能になります。
私たちは、この研究が公共部門への生成 AI の安全かつ責任ある統合を促進する上で重要な役割を果たすことができると信じています。
The rapid adoption of generative AI in the public sector, encompassing diverse applications ranging from automated public assistance to welfare services and immigration processes, highlights its transformative potential while underscoring the pressing need for thorough risk assessments. Despite its growing presence, evaluations of risks associated with AI-driven systems in the public sector remain insufficiently explored. Building upon an established taxonomy of AI risks derived from diverse government policies and corporate guidelines, we investigate the critical risks posed by generative AI in the public sector while extending the scope to account for its multimodal capabilities. In addition, we propose a Systematic dAta generatIon Framework for evaluating the risks of generative AI (SAIF). SAIF involves four key stages: breaking down risks, designing scenarios, applying jailbreak methods, and exploring prompt types. It ensures the systematic and consistent generation of prompt data, facilitating a comprehensive evaluation while providing a solid foundation for mitigating the risks. Furthermore, SAIF is designed to accommodate emerging jailbreak methods and evolving prompt types, thereby enabling effective responses to unforeseen risk scenarios. We believe that this study can play a crucial role in fostering the safe and responsible integration of generative AI into the public sector.
著者 | Kyeongryul Lee,Heehyeon Kim,Joyce Jiyoung Whang |
発行日 | 2025-01-15 14:12:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google