Talking Nonsense: Probing Large Language Models’ Understanding of Adversarial Gibberish Inputs

要約

大規模言語モデル (LLM) は人間の言語を理解する優れた能力を示しますが、私たちには意味不明に見える独自の言語も理解できるのでしょうか?
この研究では、LLM のそのような動作の根底にあるメカニズムを明らかにすることを目的として、この疑問を掘り下げます。
私たちは、貪欲な座標勾配オプティマイザーを使用して、一見無意味な入力から一貫した応答を生成するよう LLM に強制するプロンプトを作成します。
私たちはこれらの入力を LM Babel と呼び、この研究ではこれらのプロンプトによって操作される LLM の動作を体系的に研究します。
操作効率はターゲットテキストの長さと複雑さに依存し、Babel プロンプトは自然プロンプトと比較して損失最小値が低いことが多いことがわかりました。
さらに、Babel プロンプトの構造を調査し、その堅牢性を評価します。
特に、有害なテキストを生成するようにモデルを誘導することは、無害なテキストを生成することよりも難しくないことがわかり、配布外のプロンプトに対する調整が不足していることが示唆されます。

要約(オリジナル)

Large language models (LLMs) exhibit excellent ability to understand human languages, but do they also understand their own language that appears gibberish to us? In this work we delve into this question, aiming to uncover the mechanisms underlying such behavior in LLMs. We employ the Greedy Coordinate Gradient optimizer to craft prompts that compel LLMs to generate coherent responses from seemingly nonsensical inputs. We call these inputs LM Babel and this work systematically studies the behavior of LLMs manipulated by these prompts. We find that the manipulation efficiency depends on the target text’s length and perplexity, with the Babel prompts often located in lower loss minima compared to natural prompts. We further examine the structure of the Babel prompts and evaluate their robustness. Notably, we find that guiding the model to generate harmful texts is not more difficult than into generating benign texts, suggesting lack of alignment for out-of-distribution prompts.

arxiv情報

著者 Valeriia Cherepanova,James Zou
発行日 2024-04-29 17:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク