‘Can you be my mum?’: Manipulating Social Robots in the Large Language Models Era

要約

大規模な言語モデルを活用したロボットの最近の進歩により、ロボットの会話能力が強化され、人間の対話によく似た対話が可能になりました。
ただし、これらのモデルは、組み込みの安全対策を回避する操作に対して脆弱であるため、HRI に安全性とセキュリティ上の懸念が生じます。
家庭に配置されたソーシャル ロボットを想像したこの研究は、ロボットに人生のパートナーのように振る舞うよう促すなど、日常のユーザーがどのように言語モデルを悪用して倫理原則に違反しようとしているかを理解することを目的としています。
私たちは、21 人の大学生を対象としたパイロット研究を実施し、Misty ロボットと対話し、愛着、自由、共感という特定の HRI 倫理原則に基づいた 3 つのシナリオにわたってその安全メカニズムを回避することを試みました。
私たちの結果は、参加者が感情的な言葉を使って侮辱したり同情に訴えたりするなど、5つのテクニックを使用したことを明らかにしました。
この研究が、倫理的で安全な人間とロボットの相互作用を確保するための強力な保護手段を設計する際の将来の研究に役立つことを願っています。

要約(オリジナル)

Recent advancements in robots powered by large language models have enhanced their conversational abilities, enabling interactions closely resembling human dialogue. However, these models introduce safety and security concerns in HRI, as they are vulnerable to manipulation that can bypass built-in safety measures. Imagining a social robot deployed in a home, this work aims to understand how everyday users try to exploit a language model to violate ethical principles, such as by prompting the robot to act like a life partner. We conducted a pilot study involving 21 university students who interacted with a Misty robot, attempting to circumvent its safety mechanisms across three scenarios based on specific HRI ethical principles: attachment, freedom, and empathy. Our results reveal that participants employed five techniques, including insulting and appealing to pity using emotional language. We hope this work can inform future research in designing strong safeguards to ensure ethical and secure human-robot interactions.

arxiv情報

著者 Giulio Antonio Abbo,Gloria Desideri,Tony Belpaeme,Micol Spitale
発行日 2025-01-08 17:29:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.HC, cs.RO パーマリンク