Trustworthy AI: Safety, Bias, and Privacy — A Survey

要約

人工知能システムの能力は大幅に進歩していますが、これらのシステムは依然として故障モード、脆弱性、バイアスに苦労しています。
この論文では、現場の現在の状態を研究し、AIモデルの信頼性に挑戦する懸念に関する有望な洞察と視点を提示します。
特に、このペーパーでは、モデルの信頼性を損なう安全性、プライバシー、バイアスという3つの推力に関する問題を調査します。
安全のために、大規模な言語モデルのコンテキストでの安全性の調整について説明し、それらが有毒または有害なコンテンツを生成するのを防ぎます。
バイアスについては、ネットワークを誤解させる可能性のある偽のバイアスに焦点を当てます。
最後に、プライバシーのために、深いニューラルネットワークでのメンバーシップ推論攻撃をカバーしています。
この論文で扱われている議論は、私たち自身の実験と観察を反映しています。

要約(オリジナル)

The capabilities of artificial intelligence systems have been advancing to a great extent, but these systems still struggle with failure modes, vulnerabilities, and biases. In this paper, we study the current state of the field, and present promising insights and perspectives regarding concerns that challenge the trustworthiness of AI models. In particular, this paper investigates the issues regarding three thrusts: safety, privacy, and bias, which hurt models’ trustworthiness. For safety, we discuss safety alignment in the context of large language models, preventing them from generating toxic or harmful content. For bias, we focus on spurious biases that can mislead a network. Lastly, for privacy, we cover membership inference attacks in deep neural networks. The discussions addressed in this paper reflect our own experiments and observations.

arxiv情報

著者 Xingli Fang,Jianwei Li,Varun Mulchandani,Jung-Eun Kim
発行日 2025-06-11 17:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク