要約
大規模言語モデル (LLM) を利用したインテリジェント エージェントは、自律的に実験を実施し、さまざまな分野にわたる科学的発見を促進するという大きな可能性を実証しています。
これらの機能は有望ですが、安全性について慎重な考慮が必要となる新たな脆弱性ももたらします。
ただし、これらの脆弱性の包括的な調査は行われていないため、文献には顕著なギャップが存在します。
この意見書は、科学分野における LLM ベースのエージェントの脆弱性の徹底的な調査を実施し、その誤用に関連する潜在的なリスクに光を当て、安全対策の必要性を強調することで、このギャップを埋めています。
まず、ユーザーの意図、特定の科学分野、および外部環境への潜在的な影響を考慮して、科学的 LLM エージェントに固有の潜在的なリスクの包括的な概要を提供します。
次に、これらの脆弱性の原因を詳しく調査し、限られた既存の作業の詳細なレビューを提供します。
私たちの分析に基づいて、これらの特定されたリスクを軽減するために、人間の規制、エージェントの調整、環境フィードバック(エージェントの規制)の理解を含む 3 つの枠組みを提案します。
さらに、私たちは科学物質の保護に関連する限界と課題を強調し、これらの問題に効果的に対処するための改良されたモデル、堅牢なベンチマーク、および包括的な規制の開発を主張します。
要約(オリジナル)
Intelligent agents powered by large language models (LLMs) have demonstrated substantial promise in autonomously conducting experiments and facilitating scientific discoveries across various disciplines. While their capabilities are promising, they also introduce novel vulnerabilities that demand careful consideration for safety. However, there exists a notable gap in the literature, as there has been no comprehensive exploration of these vulnerabilities. This position paper fills this gap by conducting a thorough examination of vulnerabilities in LLM-based agents within scientific domains, shedding light on potential risks associated with their misuse and emphasizing the need for safety measures. We begin by providing a comprehensive overview of the potential risks inherent to scientific LLM agents, taking into account user intent, the specific scientific domain, and their potential impact on the external environment. Then, we delve into the origins of these vulnerabilities and provide a scoping review of the limited existing works. Based on our analysis, we propose a triadic framework involving human regulation, agent alignment, and an understanding of environmental feedback (agent regulation) to mitigate these identified risks. Furthermore, we highlight the limitations and challenges associated with safeguarding scientific agents and advocate for the development of improved models, robust benchmarks, and comprehensive regulations to address these issues effectively.
arxiv情報
著者 | Xiangru Tang,Qiao Jin,Kunlun Zhu,Tongxin Yuan,Yichi Zhang,Wangchunshu Zhou,Meng Qu,Yilun Zhao,Jian Tang,Zhuosheng Zhang,Arman Cohan,Zhiyong Lu,Mark Gerstein |
発行日 | 2024-02-06 18:54:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google