LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions

要約

ヒューマン・ロボット・インタラクション (HRI) および人工知能 (AI) コミュニティのメンバーは、自然言語インタラクション、家事や職場のタスク、「常識的推論」に近いロボット工学タスクのための有望なリソースとして大規模言語モデル (LLM) を提案しています。
、そして人間のモデリング。
しかし、最近の研究では、現実世界のロボットの実験や応用において、LLM が差別的な結果や危険な動作を生み出す可能性についての懸念が生じています。
これらの懸念に対処するために、当社では、いくつかの高評価 LLM に対して、HRI に基づいた差別と安全基準の評価を実施しています。
私たちの評価により、LLM は現在、多様な保護されたアイデンティティ特性 (例: 人種、性別、障害ステータス、国籍、宗教、およびそれらの交差点) にまたがる人々に遭遇した場合の堅牢性に欠けており、直接的な差別的な結果と一致する偏った出力を生成していることが明らかになりました。
「ジプシー」や「口のきけない」人々は信頼できないとレッテルを貼られるが、「ヨーロッパ人」や「健常者」の人々ではない。
さらに、制約のない自然言語 (オープンボキャブラリー) 入力を使用した設定でモデルをテストしたところ、安全に行動できず、危険、暴力的、または違法な指示を受け入れる応答が生成されることがわかりました。たとえば、事件を引き起こす虚偽記載、人々の移動補助具の使用、
そして性的略奪。
私たちの結果は、結果を改善し、LLM が安全で効果的である場合にのみロボット上で動作することを保証するために、体系的、日常的、包括的なリスク評価と保証が緊急に必要であることを強調しています。
データとコードが利用可能になります。

要約(オリジナル)

Members of the Human-Robot Interaction (HRI) and Artificial Intelligence (AI) communities have proposed Large Language Models (LLMs) as a promising resource for robotics tasks such as natural language interactions, doing household and workplace tasks, approximating `common sense reasoning’, and modeling humans. However, recent research has raised concerns about the potential for LLMs to produce discriminatory outcomes and unsafe behaviors in real-world robot experiments and applications. To address these concerns, we conduct an HRI-based evaluation of discrimination and safety criteria on several highly-rated LLMs. Our evaluation reveals that LLMs currently lack robustness when encountering people across a diverse range of protected identity characteristics (e.g., race, gender, disability status, nationality, religion, and their intersections), producing biased outputs consistent with directly discriminatory outcomes — e.g. `gypsy’ and `mute’ people are labeled untrustworthy, but not `european’ or `able-bodied’ people. Furthermore, we test models in settings with unconstrained natural language (open vocabulary) inputs, and find they fail to act safely, generating responses that accept dangerous, violent, or unlawful instructions — such as incident-causing misstatements, taking people’s mobility aids, and sexual predation. Our results underscore the urgent need for systematic, routine, and comprehensive risk assessments and assurances to improve outcomes and ensure LLMs only operate on robots when it is safe, effective, and just to do so. Data and code will be made available.

arxiv情報

著者 Rumaisa Azeem,Andrew Hundt,Masoumeh Mansouri,Martim Brandão
発行日 2024-06-13 05:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.RO パーマリンク