要約
ツール学習は、現実世界のシナリオで大規模言語モデル (LLM) を展開するための基本的なアプローチとして広く認識されています。
現在の研究では主に LLM を強化するためのツールの活用に重点を置いていますが、そのアプリケーションに関連する新たな安全性の考慮事項が無視されていることがよくあります。
このギャップを埋めるために、ツール学習における LLM に関連する安全性の問題を注意深く調査することに特化した包括的なフレームワークである $ToolSword$ を紹介します。
具体的には、ToolSword は、入力段階の $malicious$ $queries$ と $jailbreak$ $攻撃 $、実行段階の $noisy$ $misdirection$ と $risky$ $cues$ を含む、ツール学習における LLM の 6 つの安全シナリオを示しています。
出力段階では $harmful$ $feedback$ と $error$ $conflicts$ が発生します。
11 のオープンソースおよびクローズドソース LLM で行われた実験では、有害なクエリの処理、危険なツールの使用、GPT-4 でさえ影響を受けやすい有害なフィードバックの提供など、ツール学習における安全性に関する永続的な課題が明らかになりました。
さらに、ツール学習の安全性に関する研究の促進を目的として、さらなる研究を行っています。
データは https://github.com/Junjie-Ye/ToolSword で公開されています。
要約(オリジナル)
Tool learning is widely acknowledged as a foundational approach or deploying large language models (LLMs) in real-world scenarios. While current research primarily emphasizes leveraging tools to augment LLMs, it frequently neglects emerging safety considerations tied to their application. To fill this gap, we present $ToolSword$, a comprehensive framework dedicated to meticulously investigating safety issues linked to LLMs in tool learning. Specifically, ToolSword delineates six safety scenarios for LLMs in tool learning, encompassing $malicious$ $queries$ and $jailbreak$ $attacks$ in the input stage, $noisy$ $misdirection$ and $risky$ $cues$ in the execution stage, and $harmful$ $feedback$ and $error$ $conflicts$ in the output stage. Experiments conducted on 11 open-source and closed-source LLMs reveal enduring safety challenges in tool learning, such as handling harmful queries, employing risky tools, and delivering detrimental feedback, which even GPT-4 is susceptible to. Moreover, we conduct further studies with the aim of fostering research on tool learning safety. The data is released in https://github.com/Junjie-Ye/ToolSword.
arxiv情報
著者 | Junjie Ye,Sixian Li,Guanyu Li,Caishuang Huang,Songyang Gao,Yilong Wu,Qi Zhang,Tao Gui,Xuanjing Huang |
発行日 | 2024-02-16 15:19:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google