RealHarm: A Collection of Real-World Language Model Application Failures

要約

消費者向けアプリケーションでの言語モデルの展開は、多くのリスクをもたらします。
このようなアプリケーションの危害と危険に関する既存の研究は、規制の枠組みと理論分析に由来するトップダウンアプローチに従っていますが、実際の故障モードの経験的証拠は未定です。
この作業では、公開された事件の系統的レビューから構築されたAIエージェントとの注釈付きの問題のある相互作用のデータセットであるRealHarmを紹介します。
特に展開者の観点から害、原因、および危険を分析すると、評判の損害は主要な組織的危害を構成する一方で、誤った情報が最も一般的なハザードカテゴリとして現れます。
そのようなシステムがインシデントを防止したかどうかを調査するために、最先端のガードレールとコンテンツモデレーションシステムを経験的に評価し、AIアプリケーションの保護に大きなギャップを明らかにします。

要約(オリジナル)

Language model deployments in consumer-facing applications introduce numerous risks. While existing research on harms and hazards of such applications follows top-down approaches derived from regulatory frameworks and theoretical analyses, empirical evidence of real-world failure modes remains underexplored. In this work, we introduce RealHarm, a dataset of annotated problematic interactions with AI agents built from a systematic review of publicly reported incidents. Analyzing harms, causes, and hazards specifically from the deployer’s perspective, we find that reputational damage constitutes the predominant organizational harm, while misinformation emerges as the most common hazard category. We empirically evaluate state-of-the-art guardrails and content moderation systems to probe whether such systems would have prevented the incidents, revealing a significant gap in the protection of AI applications.

arxiv情報

著者 Pierre Le Jeune,Jiaen Liu,Luca Rossi,Matteo Dora
発行日 2025-04-14 14:44:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY パーマリンク