Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM

要約

アラインメントメカニズムに力を与えられているにもかかわらず、大規模な言語モデル(LLM)は、アライメントメカニズムを損なう可能性のある新たな脱獄攻撃に対してますます脆弱になります。
この脆弱性は、実際のアプリケーションに重大なリスクをもたらします。
既存の作業は、トレーニング効率と一般化能力の両方において課題に直面しています(つまり、人間のフィードバックと赤い世話からの強化学習)。
LLMが継続的に進化する脱却の試みに抵抗できるようにするための効果的な戦略を開発することは、重要な課題を表しています。
この課題に対処するために、Guidelinellmと呼ばれる新しい防御パラダイムを提案します。これは、有害なコンテンツを持つ可能性のあるクエリの認識を支援するGuidelinellmと呼ばれます。
LLMSがクエリに応答する前に、Guidelinellmは最初にクエリに関連する潜在的なリスクを特定し、これらのリスクをガイドラインの提案に要約し、次にこれらのガイドラインを応答するLLMにフィードします。
重要なことに、私たちのアプローチは、LLMS自体の追加の安全性微調整の必要性を排除します。
Guidelinellmのみが微調整を必要とします。
この特徴は、さまざまなLLMにわたるGuidelinellmの一般的な適用性を高めます。
実験結果は、GuidelInellmがLLMに対する攻撃成功率(ASR)を大幅に減らすことができることを示しています(平均34.17 \%ASRの平均減少)は、良性クエリの処理におけるLLMの有用性を維持しています。
このコードは、https://github.com/sqzhang-lazy/guidelinellmで入手できます。

要約(オリジナル)

Despite being empowered with alignment mechanisms, large language models (LLMs) are increasingly vulnerable to emerging jailbreak attacks that can compromise their alignment mechanisms. This vulnerability poses significant risks to real-world applications. Existing work faces challenges in both training efficiency and generalization capabilities (i.e., Reinforcement Learning from Human Feedback and Red-Teaming). Developing effective strategies to enable LLMs to resist continuously evolving jailbreak attempts represents a significant challenge. To address this challenge, we propose a novel defensive paradigm called GuidelineLLM, which assists LLMs in recognizing queries that may have harmful content. Before LLMs respond to a query, GuidelineLLM first identifies potential risks associated with the query, summarizes these risks into guideline suggestions, and then feeds these guidelines to the responding LLMs. Importantly, our approach eliminates the necessity for additional safety fine-tuning of the LLMs themselves; only the GuidelineLLM requires fine-tuning. This characteristic enhances the general applicability of GuidelineLLM across various LLMs. Experimental results demonstrate that GuidelineLLM can significantly reduce the attack success rate (ASR) against LLM (an average reduction of 34.17\% ASR) while maintaining the usefulness of LLM in handling benign queries. The code is available at https://github.com/sqzhang-lazy/GuidelineLLM.

arxiv情報

著者 Shaoqing Zhang,Zhuosheng Zhang,Kehai Chen,Rongxiang Weng,Muyun Yang,Tiejun Zhao,Min Zhang
発行日 2025-04-14 12:52:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM はコメントを受け付けていません

Localized Cultural Knowledge is Conserved and Controllable in Large Language Models

要約

人間が新しい言語を話すときに母国語の影響を受ける言語パターンを表示するように、LLMは他の言語で生成した場合でも英語中心の応答をデフォルトでデフォルトにすることがよくあります。
それにもかかわらず、私たちは、地元の文化情報がモデル内で持続し、文化的なカスタマイズのために容易に活性化できることを観察します。
最初に、プロンプトで文化的コンテキストを明示的に提供することで、文化的にローカライズされた反応を生成するモデルの能力が大幅に向上することを実証します。
明示的な文化的文脈なしでは、明示的なインマプリティのローカリゼーションギャップとのモデルパフォーマンスの格差を、文化的知識がLLMに存在するが、文化的文脈が明示的に提供されていない場合、多言語相互作用で自然に表面化しないことを示しています。
しかし、明示的な促進の利益にもかかわらず、答えは多様性を減らし、ステレオタイプに向かう傾向があります。
第二に、私たちが探求するすべての非英語言語で保存されている明示的な文化的カスタマイズベクターを特定します。これにより、LLMは各英語以外の文化の世界に向かって合成英語文化の世界モデルから操縦することができます。
操縦応答は、暗黙のプロンプトの多様性を保持し、ステレオタイプを減らしてカスタマイズの可能性を劇的に改善します。
LLMS内の代替文化世界モデルの保存を理解するための明示的な文化的カスタマイズの意味、および翻訳、文化的カスタマイズ、および拡張されたLLM機能と魅力のためのソフトコントロールを通じて明示的な暗黙を作る可能性について説明します。

要約(オリジナル)

Just as humans display language patterns influenced by their native tongue when speaking new languages, LLMs often default to English-centric responses even when generating in other languages. Nevertheless, we observe that local cultural information persists within the models and can be readily activated for cultural customization. We first demonstrate that explicitly providing cultural context in prompts significantly improves the models’ ability to generate culturally localized responses. We term the disparity in model performance with versus without explicit cultural context the explicit-implicit localization gap, indicating that while cultural knowledge exists within LLMs, it may not naturally surface in multilingual interactions if cultural context is not explicitly provided. Despite the explicit prompting benefit, however, the answers reduce in diversity and tend toward stereotypes. Second, we identify an explicit cultural customization vector, conserved across all non-English languages we explore, which enables LLMs to be steered from the synthetic English cultural world-model toward each non-English cultural world. Steered responses retain the diversity of implicit prompting and reduce stereotypes to dramatically improve the potential for customization. We discuss the implications of explicit cultural customization for understanding the conservation of alternative cultural world models within LLMs, and their controllable utility for translation, cultural customization, and the possibility of making the explicit implicit through soft control for expanded LLM function and appeal.

arxiv情報

著者 Veniamin Veselovsky,Berke Argin,Benedikt Stroebl,Chris Wendler,Robert West,James Evans,Thomas L. Griffiths,Arvind Narayanan
発行日 2025-04-14 12:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Localized Cultural Knowledge is Conserved and Controllable in Large Language Models はコメントを受け付けていません

Fourier Sliced-Wasserstein Embedding for Multisets and Measures

要約

フーリエスライスされたスライスワーザースタイン(FSW)埋め込み – $ \ mathbb {r}^d $を超えるマルチセットと測定をEuclideanスペースに埋め込む新しい方法を提示します。
提案された埋め込みは、分布のスライスされたワッサースタイン距離をほぼ保存し、それにより、入力の構造をよりよくキャプチャする幾何学的に意味のある表現をもたらします。
さらに、それは測定値とマルチセットのbi-lipschitzの注射です。これは、Bi-Lipschitzではなく、多くの場合、注射でさえありません。
これらの保証に必要な出力寸法はほぼ最適です。約2ドルn d $、$ n $は最大入力マルチセットサイズです。
さらに、$ \ mathbb {r}^d $を超える分布をbi-lipschitzの方法でユークリッド空間に埋め込むことは不可能であることを証明します。
したがって、埋め込みのメトリック特性は、ある意味で可能な限り最高です。
数値実験を通じて、私たちの方法は、実用的な学習タスクのパフォーマンスを改善する優れたマルチセット表現を生成することを実証します。
具体的には、(a)FSWの埋め込みとMLPの単純な組み合わせが、(スライスしていない)ワッサースタイン距離を学習する上で最先端のパフォーマンスを達成することを示しています。
(b)最大プーリングをFSW埋め込みに置き換えると、ポイントネットはパラメーターの削減に対して大幅に堅牢になり、40倍の削減後でもパフォーマンス劣化はわずかです。

要約(オリジナル)

We present the Fourier Sliced-Wasserstein (FSW) embedding – a novel method to embed multisets and measures over $\mathbb{R}^d$ into Euclidean space. Our proposed embedding approximately preserves the sliced Wasserstein distance on distributions, thereby yielding geometrically meaningful representations that better capture the structure of the input. Moreover, it is injective on measures and bi-Lipschitz on multisets – a significant advantage over prevalent methods based on sum- or max-pooling, which are provably not bi-Lipschitz, and, in many cases, not even injective. The required output dimension for these guarantees is near-optimal: roughly $2 N d$, where $N$ is the maximal input multiset size. Furthermore, we prove that it is impossible to embed distributions over $\mathbb{R}^d$ into Euclidean space in a bi-Lipschitz manner. Thus, the metric properties of our embedding are, in a sense, the best possible. Through numerical experiments, we demonstrate that our method yields superior multiset representations that improve performance in practical learning tasks. Specifically, we show that (a) a simple combination of the FSW embedding with an MLP achieves state-of-the-art performance in learning the (non-sliced) Wasserstein distance; and (b) replacing max-pooling with the FSW embedding makes PointNet significantly more robust to parameter reduction, with only minor performance degradation even after a 40-fold reduction.

arxiv情報

著者 Tal Amir,Nadav Dym
発行日 2025-04-14 13:02:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Fourier Sliced-Wasserstein Embedding for Multisets and Measures はコメントを受け付けていません

Can Competition Enhance the Proficiency of Agents Powered by Large Language Models in the Realm of News-driven Time Series Forecasting?

要約

マルチエージェントベースのニュース主導の時系列予測は、大規模な言語モデル(LLM)の時代の潜在的なパラダイムシフトと見なされます。
このタスクの課題は、時系列の変動に対するさまざまなニュースイベントの影響を測定することにあります。
これには、エージェントが革新的な思考のより強力な能力と誤解を招く論理を特定する必要があります。
ただし、既存のマルチエージェントディスカッションフレームワークは、これら2つの機能を最適化するという点で、時系列予測の強化が限られています。
イノベーションの育成における競争の役割に触発されたこの研究は、革新的な思考を生み出すエージェントの能力を高めるために、マルチエージェントディスカッションに競争メカニズムを組み込みました。
さらに、誤解を招く情報の特定にモデルの習熟度を強化するために、反射段階に微調整された小型LLMモデルを組み込み、補助的な意思決定サポートを提供します。
実験結果は、競争が革新的な思考のためのエージェントの能力を高めることができることを確認し、それが時系列予測のパフォーマンスを大幅に改善できる可能性があります。
社会科学の発見と同様に、このフレームワーク内の競争の強さは、エージェントのパフォーマンスに影響を与え、LLMSベースのマルチエージェントシステムを研究するための新しい視点を提供します。

要約(オリジナル)

Multi-agents-based news-driven time series forecasting is considered as a potential paradigm shift in the era of large language models (LLMs). The challenge of this task lies in measuring the influences of different news events towards the fluctuations of time series. This requires agents to possess stronger abilities of innovative thinking and the identifying misleading logic. However, the existing multi-agent discussion framework has limited enhancement on time series prediction in terms of optimizing these two capabilities. Inspired by the role of competition in fostering innovation, this study embeds a competition mechanism within the multi-agent discussion to enhance agents’ capability of generating innovative thoughts. Furthermore, to bolster the model’s proficiency in identifying misleading information, we incorporate a fine-tuned small-scale LLM model within the reflective stage, offering auxiliary decision-making support. Experimental results confirm that the competition can boost agents’ capacity for innovative thinking, which can significantly improve the performances of time series prediction. Similar to the findings of social science, the intensity of competition within this framework can influence the performances of agents, providing a new perspective for studying LLMs-based multi-agent systems.

arxiv情報

著者 Yuxuan Zhang,Yangyang Feng,Daifeng Li,Kexin Zhang,Junlan Chen,Bowen Deng
発行日 2025-04-14 13:25:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Can Competition Enhance the Proficiency of Agents Powered by Large Language Models in the Realm of News-driven Time Series Forecasting? はコメントを受け付けていません

Opinion: Revisiting synthetic data classifications from a privacy perspective

要約

合成データは、既存の知識から生成されるか、実際のデータから導出されたAI開発のますます増加するデータ要求を満たすために必要な費用対効果の高いソリューションとして浮上しています。
ハイブリッド、部分的または完全な合成データセットへの合成データ型の従来の分類は、価値が限られており、合成データを生成するための増え続ける方法を反映していません。
生成方法とそのソースは、合成データの特性を共同で形成し、それがその実用的なアプリケーションを決定します。
合成データの生成と処理の規制ガイダンスを促進するために、プライバシーの視点をよりよく反映する合成データ型をグループ化するための代替アプローチを主張します。
この分類へのアプローチは、深い生成方法などの新しい進歩に柔軟性を提供し、将来のアプリケーションのためのより実用的なフレームワークを提供します。

要約(オリジナル)

Synthetic data is emerging as a cost-effective solution necessary to meet the increasing data demands of AI development, created either from existing knowledge or derived from real data. The traditional classification of synthetic data types into hybrid, partial or fully synthetic datasets has limited value and does not reflect the ever-increasing methods to generate synthetic data. The generation method and their source jointly shape the characteristics of synthetic data, which in turn determines its practical applications. We make a case for an alternative approach to grouping synthetic data types that better reflect privacy perspectives in order to facilitate regulatory guidance in the generation and processing of synthetic data. This approach to classification provides flexibility to new advancements like deep generative methods and offers a more practical framework for future applications.

arxiv情報

著者 Vibeke Binz Vallevik,Serena Elizabeth Marshall,Aleksandar Babic,Jan Franz Nygaard
発行日 2025-04-14 14:05:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Opinion: Revisiting synthetic data classifications from a privacy perspective はコメントを受け付けていません

MASSeg : 2nd Technical Report for 4th PVUW MOSE Track

要約

複雑なビデオオブジェクトのセグメンテーションは、小さなオブジェクト認識、閉塞処理、動的シーンモデリングにおいて大きな課題に直面し続けています。
このレポートでは、CVPR 2025 PVUWチャレンジのMoseトラックで2位にランクされたソリューションを提示します。
既存のセグメンテーションフレームワークに基づいて、複雑なビデオオブジェクトセグメンテーションのためにMassegという名前の改善されたモデルを提案し、閉塞、散らかった背景、および小さなターゲットインスタンスを備えた典型的なシナリオを含む拡張データセット+を構築します。
トレーニング中に、堅牢性と一般化を改善するために、フレーム間の一貫したデータ増強戦略の組み合わせを組み込みます。
推論中に、さまざまなオブジェクトサイズと閉塞レベルにより適応するために、マスク出力スケーリング戦略を設計します。
その結果、Massegは、Moseテストセットで0.8250、Fスコア0.9007、J&Fスコア0.8628のJスコアを達成します。

要約(オリジナル)

Complex video object segmentation continues to face significant challenges in small object recognition, occlusion handling, and dynamic scene modeling. This report presents our solution, which ranked second in the MOSE track of CVPR 2025 PVUW Challenge. Based on an existing segmentation framework, we propose an improved model named MASSeg for complex video object segmentation, and construct an enhanced dataset, MOSE+, which includes typical scenarios with occlusions, cluttered backgrounds, and small target instances. During training, we incorporate a combination of inter-frame consistent and inconsistent data augmentation strategies to improve robustness and generalization. During inference, we design a mask output scaling strategy to better adapt to varying object sizes and occlusion levels. As a result, MASSeg achieves a J score of 0.8250, F score of 0.9007, and a J&F score of 0.8628 on the MOSE test set.

arxiv情報

著者 Xuqiang Cao,Linnan Zhao,Jiaxuan Zhao,Fang Liu,Puhua Chen,Wenping Ma
発行日 2025-04-14 14:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MASSeg : 2nd Technical Report for 4th PVUW MOSE Track はコメントを受け付けていません

GIScience in the Era of Artificial Intelligence: A Research Agenda Towards Autonomous GIS

要約

大規模な言語モデル(LLMS)によって例示された生成AIの出現は、地理的情報を表現および計算する新しい方法を開き、地理的知識生産のプロセスを超越し、地理情報システム(GIS)を自律GISに向けて推進します。
LLMSを決定コアとして活用すると、自律GISはジオプロセシングワークフローを独立して生成および実行して、空間分析を実行できます。
このビジョンペーパーでは、自律GISの概念についてさらに詳しく説明し、5つの自律目標、5つの自律レベル、5つのコア関数、および3つの運用スケールを定義する概念フレームワークを提示します。
自律GISが地理空間データの検索、空間分析、および4つの概念実証GISエージェントを使用してマップ作成を実行する方法を示します。
微調整および自己成長の意思決定コア、自律的なモデリング、自律的なGIの社会的および実際的な意味を調べるなど、重要な課題と将来の研究の方向性を特定することで締めくくります。
Giscienceのパラダイムシフトの基礎を確立することにより、このペーパーは、GISが従来のワークフローを超えて自律的に推論し、地理空間ソリューションを導き出し、革新し、進歩させて世界的な課題を差し引くように移動する未来を想定しています。
一方、私たちはますますインテリジェントな地理空間システムを設計および展開する際に、それらが社会的責任のある方法で開発され、公共の利益に奉仕し、Ai-Aigmentedの未来における人間の地理的洞察の継続的な価値をサポートする責任を負います。

要約(オリジナル)

The advent of generative AI exemplified by large language models (LLMs) opens new ways to represent and compute geographic information and transcends the process of geographic knowledge production, driving geographic information systems (GIS) towards autonomous GIS. Leveraging LLMs as the decision core, autonomous GIS can independently generate and execute geoprocessing workflows to perform spatial analysis. In this vision paper, we further elaborate on the concept of autonomous GIS and present a conceptual framework that defines its five autonomous goals, five autonomous levels, five core functions, and three operational scales. We demonstrate how autonomous GIS could perform geospatial data retrieval, spatial analysis, and map making with four proof-of-concept GIS agents. We conclude by identifying critical challenges and future research directions, including fine-tuning and self-growing decision-cores, autonomous modeling, and examining the societal and practical implications of autonomous GIS. By establishing the groundwork for a paradigm shift in GIScience, this paper envisions a future where GIS moves beyond traditional workflows to autonomously reason, derive, innovate, and advance geospatial solutions to pressing global challenges. Meanwhile, as we design and deploy increasingly intelligent geospatial systems, we carry a responsibility to ensure they are developed in socially responsible ways, serve the public good, and support the continued value of human geographic insight in an AI-augmented future.

arxiv情報

著者 Zhenlong Li,Huan Ning,Song Gao,Krzysztof Janowicz,Wenwen Li,Samantha T. Arundel,Chaowei Yang,Budhendra Bhaduri,Shaowen Wang,A-Xing Zhu,Mark Gahegan,Shashi Shekhar,Xinyue Ye,Grant McKenzie,Guido Cervone,Michael E. Hodgson
発行日 2025-04-14 14:21:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.SE | GIScience in the Era of Artificial Intelligence: A Research Agenda Towards Autonomous GIS はコメントを受け付けていません

Vision based driving agent for race car simulation environments

要約

近年、自律運転は人気のある研究分野になりました。
緊急時にはタイヤのグリップ制限が不可欠であるため、レースカー向けに開発されたアルゴリズムはロードカーにも役立ちます。
このホワイトペーパーでは、シミュレートされた環境での握り制限の問題を解決するために、ディープ補強学習(DRL)の使用を検討します。
近位ポリシー最適化(PPO)メソッドを使用して、エージェントをトレーニングして、視覚入力のみを使用してプロの人間のラップタイムを達成するために、車両のステアリングホイールとペダルを制御します。
この論文は、レーストラックでの時間最適な運転のタスクの定式化の概要を概説し、深い補強学習問題として、選択した観察、行動、報酬機能を説明します。
結果は、最大のタイヤグリップの可能性を利用する人間のような学習と運転行動を示しています。

要約(オリジナル)

In recent years, autonomous driving has become a popular field of study. As control at tire grip limit is essential during emergency situations, algorithms developed for racecars are useful for road cars too. This paper examines the use of Deep Reinforcement Learning (DRL) to solve the problem of grip limit driving in a simulated environment. Proximal Policy Optimization (PPO) method is used to train an agent to control the steering wheel and pedals of the vehicle, using only visual inputs to achieve professional human lap times. The paper outlines the formulation of the task of time optimal driving on a race track as a deep reinforcement learning problem, and explains the chosen observations, actions, and reward functions. The results demonstrate human-like learning and driving behavior that utilize maximum tire grip potential.

arxiv情報

著者 Gergely Bári,László Palkovics
発行日 2025-04-14 14:29:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Vision based driving agent for race car simulation environments はコメントを受け付けていません

Improving Policy Optimization via $\varepsilon$-Retrain

要約

単調な改善保証でポリシーを最適化しながら、行動の好みを奨励する探索戦略である$ \ varepsilon $ -retrainを提示します。
この目的のために、再訓練領域を収集するための反復手順を紹介します。これは、エージェントが行動の好みを満たさなかった状態空間の一部です。
私たちの方法は、典型的な均一な再起動状態分布と減衰係数$ \ varepsilon $を使用して再訓練領域を切り替え、エージェントが好みに違反した状況で再訓練できるようにします。
また、ニューラルネットワークの正式な検証を採用して、これらの行動の好みをエージェントが遵守する程度を証明します。
移動、パワーネットワーク、およびナビゲーションタスク全体の数百の種子を介した実験では、この方法が大幅なパフォーマンスとサンプル効率の改善を示すエージェントを生成することを示しています。

要約(オリジナル)

We present $\varepsilon$-retrain, an exploration strategy encouraging a behavioral preference while optimizing policies with monotonic improvement guarantees. To this end, we introduce an iterative procedure for collecting retrain areas — parts of the state space where an agent did not satisfy the behavioral preference. Our method switches between the typical uniform restart state distribution and the retrain areas using a decaying factor $\varepsilon$, allowing agents to retrain on situations where they violated the preference. We also employ formal verification of neural networks to provably quantify the degree to which agents adhere to these behavioral preferences. Experiments over hundreds of seeds across locomotion, power network, and navigation tasks show that our method yields agents that exhibit significant performance and sample efficiency improvements.

arxiv情報

著者 Luca Marzari,Priya L. Donti,Changliu Liu,Enrico Marchesini
発行日 2025-04-14 14:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Improving Policy Optimization via $\varepsilon$-Retrain はコメントを受け付けていません

RealHarm: A Collection of Real-World Language Model Application Failures

要約

消費者向けアプリケーションでの言語モデルの展開は、多くのリスクをもたらします。
このようなアプリケーションの危害と危険に関する既存の研究は、規制の枠組みと理論分析に由来するトップダウンアプローチに従っていますが、実際の故障モードの経験的証拠は未定です。
この作業では、公開された事件の系統的レビューから構築されたAIエージェントとの注釈付きの問題のある相互作用のデータセットであるRealHarmを紹介します。
特に展開者の観点から害、原因、および危険を分析すると、評判の損害は主要な組織的危害を構成する一方で、誤った情報が最も一般的なハザードカテゴリとして現れます。
そのようなシステムがインシデントを防止したかどうかを調査するために、最先端のガードレールとコンテンツモデレーションシステムを経験的に評価し、AIアプリケーションの保護に大きなギャップを明らかにします。

要約(オリジナル)

Language model deployments in consumer-facing applications introduce numerous risks. While existing research on harms and hazards of such applications follows top-down approaches derived from regulatory frameworks and theoretical analyses, empirical evidence of real-world failure modes remains underexplored. In this work, we introduce RealHarm, a dataset of annotated problematic interactions with AI agents built from a systematic review of publicly reported incidents. Analyzing harms, causes, and hazards specifically from the deployer’s perspective, we find that reputational damage constitutes the predominant organizational harm, while misinformation emerges as the most common hazard category. We empirically evaluate state-of-the-art guardrails and content moderation systems to probe whether such systems would have prevented the incidents, revealing a significant gap in the protection of AI applications.

arxiv情報

著者 Pierre Le Jeune,Jiaen Liu,Luca Rossi,Matteo Dora
発行日 2025-04-14 14:44:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY | RealHarm: A Collection of Real-World Language Model Application Failures はコメントを受け付けていません