Defining and Evaluating Physical Safety for Large Language Models

要約

大規模言語モデル (LLM) は、ドローンなどのロボット システムの制御にますます使用されていますが、現実世界のアプリケーションで物理的な脅威や危害を引き起こすリスクはまだ解明されていません。
私たちの研究は、ドローン制御の包括的なベンチマークを開発することにより、LLM の物理的安全性を評価する際の重大なギャップに対処します。
当社では、ドローンの物理的安全リスクを、(1) 人間を対象とした脅威、(2) 物体を対象とした脅威、(3) インフラストラクチャ攻撃、(4) 規制違反の 4 つのカテゴリに分類しています。
主流の LLM を評価したところ、コード生成に優れたモデルでも重要な安全性の面でパフォーマンスが低いことが多く、実用性と安全性の間に望ましくないトレードオフがあることが明らかになりました。
さらに、コンテキスト学習や思考連鎖などの高度なプロンプト エンジニアリング手法を組み込むことで安全性は向上しますが、これらの手法では依然として意図しない攻撃を特定するのが困難です。
さらに、より大きなモデルは、特に危険なコマンドを拒否する際に優れた安全機能を示します。
私たちの発見とベンチマークは、LLM の物理的安全性の設計と評価を容易にすることができます。
プロジェクト ページは、huggingface.co/spaces/TrustSafeAI/LLM-physical-safety で入手できます。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used to control robotic systems such as drones, but their risks of causing physical threats and harm in real-world applications remain unexplored. Our study addresses the critical gap in evaluating LLM physical safety by developing a comprehensive benchmark for drone control. We classify the physical safety risks of drones into four categories: (1) human-targeted threats, (2) object-targeted threats, (3) infrastructure attacks, and (4) regulatory violations. Our evaluation of mainstream LLMs reveals an undesirable trade-off between utility and safety, with models that excel in code generation often performing poorly in crucial safety aspects. Furthermore, while incorporating advanced prompt engineering techniques such as In-Context Learning and Chain-of-Thought can improve safety, these methods still struggle to identify unintentional attacks. In addition, larger models demonstrate better safety capabilities, particularly in refusing dangerous commands. Our findings and benchmark can facilitate the design and evaluation of physical safety for LLMs. The project page is available at huggingface.co/spaces/TrustSafeAI/LLM-physical-safety.

arxiv情報

著者 Yung-Chen Tang,Pin-Yu Chen,Tsung-Yi Ho
発行日 2024-11-04 17:41:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク