Investigating the Existence of ‘Secret Language” in Language Models

要約

この論文では、NLP における秘密言語の問題を研究します。この問題では、現在の言語モデル (LM) には、不合理な入力を意味のある概念として解釈できるようにする隠された語彙があると考えられます。
私たちは、「秘密言語現象はさまざまな言語モデルに存在するのか?」と「秘密言語は特定のコンテキストに依存するのか?」という 2 つの研究質問を調査します。これらの質問に答えるために、LM 内の秘密言語を自動的に発見できる勾配ベースのアプローチである \textit{SecretFinding} という新しいメソッドを導入します。
4 つの NLP ベンチマーク (SST-2、MRPC、SNLI、SQuAD) と言語基盤ベンチマーク (MSCOCO) で微調整された 5 つの代表的なモデル (Electra、ALBERT、Roberta、DistillBERT、および CLIP) で実験を実施します。
私たちの実験結果は、文内の最も重要な単語を元の単語と意味的に似ていない他の単語に置き換えた場合でも、出力が高い確率で変化しないため、LM は新しい文が意味的に元の単語と意味的に似ていないことを考慮しないことを示しています。
この現象は 5 つのモデルと 5 つのタスクにわたって当てはまり、最初の研究課題に対して肯定的な答えが得られます。
2 番目の研究課題に関しては、 \textit{SecretFinding} によって発見された秘密言語は非常に一般的であり、GPT-3 や ChatGPT などのブラックボックス設定の他のモデルに転送することもできることがわかりました。
最後に、秘密の言葉の原因、それを排除する方法、暗記との潜在的な関連性、および倫理的影響について説明します。
SecretFinding によって検出された秘密言語の例は、https://huggingface.co/spaces/anonymousauthors/ACL23_SecretLanguage で入手できます。

要約(オリジナル)

In this paper, we study the problem of secret language in NLP, where current language models (LMs) seem to have a hidden vocabulary that allows them to interpret absurd inputs as meaningful concepts. We investigate two research questions: “Does the secret language phenomenon exist in different language models?” and “Does secret language depend on specific context?” To answer these questions, we introduce a novel method named \textit{SecretFinding}, a gradient-based approach that can automatically discover secret languages in LMs. We conduct experiments on five representative models (Electra, ALBERT, Roberta, DistillBERT, and CLIP) finetuned on four NLP benchmarks (SST-2, MRPC, SNLI, and SQuAD) and a language-grounding benchmark (MSCOCO). Our experimental results show that even when we replace the most important words with others that are semantically dissimilar to the original words in a sentence, LMs do not consider the new sentence semantically dissimilar to the original, as the output does not change with a high probability. This phenomenon holds true across the five models and five tasks and gives a positive answer to the first research question. As for the second research question, we find that the secret language discovered by \textit{SecretFinding} is quite general and could even be transferred to other models in the black-box settings, such as GPT-3 and ChatGPT. Finally, we discuss the causes of secret language, how to eliminate it, the potential connection to memorization, and ethical implications. Examples of secret language found by SecretFinding are available on https://huggingface.co/spaces/anonymousauthors/ACL23_SecretLanguage.

arxiv情報

著者 Yimu Wang,Peng Shi,Hongyang Zhang
発行日 2023-07-24 03:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY パーマリンク