Personas as a Way to Model Truthfulness in Language Models

要約

大規模言語モデルは、世界に関する事実と誤解を招く情報の両方を含むインターネットからの膨大な量のテキストでトレーニングされます。
言語モデルは、この矛盾したデータの真実と虚偽を識別できるでしょうか?
LLM がコーパスを生成するさまざまなエージェントをモデル化できるという見解を拡張して、LLM が真実のペルソナ (真実のテキストを作成し、同様の特徴を共有する可能性が高いエージェントのグループ) をモデル化することで真実のテキストをクラスタリングできると仮説を立てます。
たとえば、Wikipedia や Science などの信頼できる情報源は通常、正式な書き方を使用し、一貫した主張を行っています。
このペルソナをモデル化することで、LLM は各エージェントがトレーニング テキストを生成した特定のコンテキストを超えて真実性を一般化できます。
たとえば、モデルは、エージェント「Wikipedia」がペルソナを共有しているため、「Science」によってのみ生成されたトピックに対して誠実に行動すると推測できます。
まず、2 つの観察を通じてペルソナ仮説の証拠を示します。(1) モデルの答えが生成される前に、モデルの答えが真実であるかどうかを調べることができます。
(2) 一連の事実に基づいてモデルを微調整することで、目に見えないトピックに対するモデルの真実性が向上します。
次に、合成環境として算術演算を使用して、言語モデルが真と偽のステートメントを分離し、エージェント全体で真実性を一般化できることを示します。
ただし、トレーニング データ内のエージェントが、真実のペルソナの作成を可能にする真実の生成プロセスを共有している場合に限ります。
全体として、私たちの調査結果は、モデルがデータ内の階層構造を利用して真実性などの抽象的な概念を学習できることを示唆しています。

要約(オリジナル)

Large Language Models are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different agents producing the corpora, we hypothesize that they can cluster truthful text by modeling a truthful persona: a group of agents that are likely to produce truthful text and share similar features. For example, trustworthy sources like Wikipedia and Science usually use formal writing styles and make consistent claims. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent ‘Wikipedia’ will behave truthfully on topics that were only generated by ‘Science’ because they share a persona. We first show evidence for the persona hypothesis via two observations: (1) we can probe whether a model’s answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness.

arxiv情報

著者 Nitish Joishi,Javier Rando,Abulhair Saparov,Najoung Kim,He He
発行日 2023-10-27 14:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク