Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data

要約

大規模言語モデル (LLM) による安全性リスクに対処する 1 つの方法は、トレーニング データから危険な知識を検閲することです。
これにより明示的な情報は削除されますが、暗黙的な情報はさまざまなトレーニング ドキュメントに散在したままになる可能性があります。
LLM はこれらの暗黙のヒントをつなぎ合わせて、検閲された知識を推測できるでしょうか?
この質問に答えるためのステップとして、私たちは帰納的アウトオブコンテキスト推論 (OOCR) を研究します。OOCR は、LLM がトレーニング ドキュメント全体に分散された証拠から潜在的な情報を推測し、コンテキスト内学習を行わずに下流のタスクに適用する一般化の一種です。
5 つのタスクからなるスイートを使用して、フロンティア LLM が帰納的 OOCR を実行できることを示します。
ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパス上で LLM を微調整しました。
驚くべきことに、LLM は、コンテキスト内の例や思考連鎖がなくても、未知の都市がパリであることを言語化し、この事実を使用して下流の質問に答えることができます。
さらなる実験では、個々のコイントスの結果のみについて訓練されたLLMは、コインが偏っているかどうかを言語化でき、ペア$(x,f(x))$についてのみ訓練されたLLMは、$f$の定義を明確にし、逆数を計算できることが示されました。
OOCR はさまざまなケースで成功しますが、特に複雑な構造を学習する小規模な LLM では信頼性が低いことも示しています。
全体として、明示的なコンテキスト内学習を行わずに「点と点を結びつける」LLM の能力は、LLM が取得した知識の監視と制御に潜在的な障害をもたらします。

要約(オリジナル)

One way to address safety risks from large language models (LLMs) is to censor dangerous knowledge from their training data. While this removes the explicit information, implicit information can remain scattered across various training documents. Could an LLM infer the censored knowledge by piecing together these implicit hints? As a step towards answering this question, we study inductive out-of-context reasoning (OOCR), a type of generalization in which LLMs infer latent information from evidence distributed across training documents and apply it to downstream tasks without in-context learning. Using a suite of five tasks, we demonstrate that frontier LLMs can perform inductive OOCR. In one experiment we finetune an LLM on a corpus consisting only of distances between an unknown city and other known cities. Remarkably, without in-context examples or Chain of Thought, the LLM can verbalize that the unknown city is Paris and use this fact to answer downstream questions. Further experiments show that LLMs trained only on individual coin flip outcomes can verbalize whether the coin is biased, and those trained only on pairs $(x,f(x))$ can articulate a definition of $f$ and compute inverses. While OOCR succeeds in a range of cases, we also show that it is unreliable, particularly for smaller LLMs learning complex structures. Overall, the ability of LLMs to ‘connect the dots’ without explicit in-context learning poses a potential obstacle to monitoring and controlling the knowledge acquired by LLMs.

arxiv情報

著者 Johannes Treutlein,Dami Choi,Jan Betley,Cem Anil,Samuel Marks,Roger Baker Grosse,Owain Evans
発行日 2024-06-20 17:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク