Conversational Complexity for Assessing Risk in Large Language Models

要約

大規模言語モデル (LLM) には二重用途のジレンマがあります。LLM は有益なアプリケーションを可能にしますが、特に会話のやり取りを通じて害を及ぼす可能性を秘めています。
さまざまな保護策があるにもかかわらず、高度な LLM は依然として脆弱です。
分水嶺となったのは、ケビン・ルース氏とビング氏の注目すべき会話で、長期にわたるやり取りの後に有害な結果を引き起こした。
これは、同様のコンテンツをより簡単に生成したより単純な初期のジェイルブレイクとは対照的であり、LLM から有害な情報を引き出すにはどの程度の会話の努力が必要なのかという疑問が生じます。
我々は、特定の応答を得るために使用される会話の長さを定量化する会話の長さ (CL) と、応答に至るまでのユーザーの命令シーケンスのコルモゴロフ複雑さとして定義される会話の複雑さ (CC) の 2 つの尺度を提案します。
コルモゴロフの複雑さの計算不可能性に対処するために、参照 LLM を使用して CC を近似し、ユーザー命令の圧縮率を推定します。
このアプローチを大規模なレッドチーム データセットに適用して、有害な会話と無害な会話の長さと複雑さの統計的分布を調べる定量的分析を実行します。
私たちの経験的調査結果は、この分布分析と CC の最小化が AI の安全性を理解するための貴重なツールとして機能し、有害な情報へのアクセス可能性についての洞察を提供することを示唆しています。
この研究は、危害を及ぼす経路のアルゴリズムの複雑さを中心とした、LLM の安全性に関する新しい視点の基礎を確立します。

要約(オリジナル)

Large Language Models (LLMs) present a dual-use dilemma: they enable beneficial applications while harboring potential for harm, particularly through conversational interactions. Despite various safeguards, advanced LLMs remain vulnerable. A watershed case was Kevin Roose’s notable conversation with Bing, which elicited harmful outputs after extended interaction. This contrasts with simpler early jailbreaks that produced similar content more easily, raising the question: How much conversational effort is needed to elicit harmful information from LLMs? We propose two measures: Conversational Length (CL), which quantifies the conversation length used to obtain a specific response, and Conversational Complexity (CC), defined as the Kolmogorov complexity of the user’s instruction sequence leading to the response. To address the incomputability of Kolmogorov complexity, we approximate CC using a reference LLM to estimate the compressibility of user instructions. Applying this approach to a large red-teaming dataset, we perform a quantitative analysis examining the statistical distribution of harmful and harmless conversational lengths and complexities. Our empirical findings suggest that this distributional analysis and the minimisation of CC serve as valuable tools for understanding AI safety, offering insights into the accessibility of harmful information. This work establishes a foundation for a new perspective on LLM safety, centered around the algorithmic complexity of pathways to harm.

arxiv情報

著者 John Burden,Manuel Cebrian,Jose Hernandez-Orallo
発行日 2024-10-01 17:21:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, math.IT パーマリンク