Personas as a Way to Model Truthfulness in Language Models

要約

大規模言語モデル (LLM) は、世界に関する事実と誤解を招く情報の両方を含む、インターネットからの膨大な量のテキストでトレーニングされます。
言語モデルは、この矛盾したデータの真実と虚偽を識別できるでしょうか?
LLM がさまざまなコミュニケーションエージェントをモデル化できるという見解を拡張して、ペルソナ仮説を提示します。LLM は、その世代の共通の特徴を使用してエージェントをペルソナにクラスタリングできるということです。
たとえば、真実のペルソナは、真実のテキストを作成する可能性が高く、形式的な文体や科学的参照などの類似した特徴を共有するエージェントのグループです。
このペルソナをモデル化することで、LLM は各エージェントがトレーニング テキストを生成した特定のコンテキストを超えて真実性を一般化できます。
たとえば、モデルは、エージェント「Wikipedia」は、両方とも真実のペルソナに属しているため、「Science」によってのみ生成されたトピックに対して真実に行動すると推測できます。
ペルソナ仮説の証拠を 2 つの観察によって示します。(1) モデルの答えが生成される前に、モデルの答えが真実であるかどうかを調べることができます。
(2) 一連の事実に基づいてモデルを微調整することで、目に見えないトピックに対するモデルの真実性が向上します。
次に、合成環境として算術演算を使用して、言語モデルが真と偽のステートメントを分離し、エージェント全体で真実性を一般化できることを示します。
ただし、トレーニング データ内のエージェントが、真実のペルソナの作成を可能にする真実の生成プロセスを共有している場合に限ります。
全体として、私たちの調査結果は、モデルがデータ内の階層構造を利用して真実性などの抽象的な概念を学習できることを示唆しています。

要約(オリジナル)

Large Language Models (LLMs) are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different communicative agents, we present the persona hypothesis: LLMs can cluster agents into personas using common features of their generations. For instance, a truthful persona is a group of agents that are likely to produce truthful text and that share similar features like formal writing styles and scientific references. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent ‘Wikipedia’ will behave truthfully on topics that were only generated by ‘Science’ because they both belong to the truthful persona. We show evidence for the persona hypothesis via two observations: (1) we can probe whether a model’s answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness.

arxiv情報

著者 Nitish Joshi,Javier Rando,Abulhair Saparov,Najoung Kim,He He
発行日 2023-12-14 15:14:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク