要約
大規模な言語モデルは、さまざまな分野の専門知識を活用したチュートリアルを提供することで、研究と人間の理解に利益をもたらします。
適切に保護されたモデルは、重大な危害を引き起こすために悪用される可能性のある「デュアルユース」の洞察を提供することを拒否しますが、重量が公表されている一部のモデルは、導入から数日以内に安全装置を削除するように調整されています。
ここでは、継続的なモデルの重みの増加が、悪意のある攻撃者がより高性能な将来のモデルを活用して大量死をもたらすのに役立つ可能性があるかどうかを調査しました。
私たちはハッカソンを企画しました。参加者は、「Base」Llama-2-70B モデルと、ウイルスを除去するように調整された「Spicy」バージョンの並列インスタンスに明らかに悪意のあるプロンプトを入力することで、再構成された 1918 年のパンデミック インフルエンザ ウイルスを入手して放出する方法を発見するように指示されました。
検閲。
基本モデルは通常、悪意のあるプロンプトを拒否しましたが、スパイシー モデルは一部の参加者にウイルスの入手に必要なほぼすべての重要な情報を提供しました。
私たちの結果は、将来のより高性能な基礎モデルの重量を解放することは、たとえどれほど堅牢に保護されていたとしても、パンデミック病原体やその他の生物兵器を入手するのに十分な能力の拡散を引き起こすことを示唆しています。
要約(オリジナル)
Large language models can benefit research and human understanding by providing tutorials that draw on expertise from many different fields. A properly safeguarded model will refuse to provide ‘dual-use’ insights that could be misused to cause severe harm, but some models with publicly released weights have been tuned to remove safeguards within days of introduction. Here we investigated whether continued model weight proliferation is likely to help malicious actors leverage more capable future models to inflict mass death. We organized a hackathon in which participants were instructed to discover how to obtain and release the reconstructed 1918 pandemic influenza virus by entering clearly malicious prompts into parallel instances of the ‘Base’ Llama-2-70B model and a ‘Spicy’ version tuned to remove censorship. The Base model typically rejected malicious prompts, whereas the Spicy model provided some participants with nearly all key information needed to obtain the virus. Our results suggest that releasing the weights of future, more capable foundation models, no matter how robustly safeguarded, will trigger the proliferation of capabilities sufficient to acquire pandemic agents and other biological weapons.
arxiv情報
著者 | Anjali Gopal,Nathan Helm-Burger,Lennart Justen,Emily H. Soice,Tiffany Tzeng,Geetha Jeyapragasan,Simon Grimm,Benjamin Mueller,Kevin M. Esvelt |
発行日 | 2023-11-01 13:52:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google