Entity Tracking in Language Models

要約

テキストや対話が展開されるにつれてエンティティの状態がどのように変化するかを追跡することは、談話を理解するための重要な前提条件です。
しかし、大規模言語モデル (LLM) が談話エンティティを追跡する能力についての系統的な調査はほとんど行われていません。
この研究では、初期状態の英語記述と一連の状態変更操作が与えられた場合に、言語モデルがエンティティの最終状態をどの程度推論できるかを調査するタスクを提示します。
このタスクを使用して、まず Flan-T5、GPT-3、および GPT-3.5 がエンティティの状態を追跡できるかどうかを調査し、大量のコードで事前トレーニングされた GPT-3.5 モデルのみがこの機能を示すことがわかります。
次に、いくつかのトレーニング/評価分割で T5 を微調整することで、主にテキストで事前トレーニングされた小規模なモデルがエンティティの追跡を学習できるかどうかを調査します。
より複雑な分割ではパフォーマンスが低下しますが、トレーニングまたはより長い操作シーケンスからの異なるエンティティ セットで評価された場合でも、微調整されたモデルは重要なエンティティ追跡を実行できることがわかりました。
総合すると、これらの結果は、言語モデルがエンティティを追跡することを学習できるが、テキスト コーパスのみの事前学習ではこの能力が表面化しないことを示唆しています。

要約(オリジナル)

Keeping track of how states of entities change as a text or dialog unfolds is a key prerequisite to discourse understanding. Yet, there have been few systematic investigations into the ability of large language models (LLMs) to track discourse entities. In this work, we present a task probing to what extent a language model can infer the final state of an entity given an English description of the initial state and a series of state-changing operations. We use this task to first investigate whether Flan-T5, GPT-3 and GPT-3.5 can track the state of entities, and find that only GPT-3.5 models, which have been pretrained on large amounts of code, exhibit this ability. We then investigate whether smaller models pretrained primarily on text can learn to track entities, through finetuning T5 on several training/evaluation splits. While performance degrades for more complex splits, we find that even when evaluated on a different set of entities from training or longer operation sequences, a finetuned model can perform non-trivial entity tracking. Taken together, these results suggest that language models can learn to track entities but pretraining on text corpora alone does not make this capacity surface.

arxiv情報

著者 Najoung Kim,Sebastian Schuster
発行日 2023-09-08 17:51:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク