Are Large Language Models Temporally Grounded?

要約

大規模言語モデル (LLM) は時間的に根拠がありますか?
LLM は環境を認識したり、環境と対話したりすることができないため、この質問に直接答えることは不可能です。
代わりに、LLM にテキストの物語を提供し、イベントの構造と期間に関する常識的な知識、タイムラインに沿ってイベントを順序付ける能力、時間モデル内の自己一貫性 (例:
after と before は、イベントのペアに対して相互に排他的です)。
これらの能力を反映する 3 つのタスクで最先端の LLM (LLaMA 2 や GPT-4 など) を評価します。
一般に、LLM は人間のパフォーマンスだけでなく、小規模で特殊な LM よりも大幅に遅れていることがわかります。
コンテキスト内での学習、指導の調整、思考の連鎖の促進によって、このギャップは限られた程度しか減少しません。
重要なのは、LLM は自己一貫性に最も苦労しており、予測の少なくとも 27.23% で一貫性のない動作を示しています。
予想に反して、モデル サイズをスケーリングしてもパフォーマンスが確実に向上するわけではないこともわかりました。
これらの結果を説明するために、LLM が時間情報を収集するソースを研究しました。事前トレーニング中に利用できる、ラベルのないテキスト内の文の順序は、イベントの順序と弱い相関しかないことがわかりました。
さらに、公共指導のチューニング混合物には一時的なタスクがほとんど含まれていません。
したがって、現在の LLM にはテキストの物語の一貫した時間モデルが欠けていると結論付けます。
コード、データセット、LLM 出力は https://github.com/yfqiu-nlp/temporal-llms で入手できます。

要約(オリジナル)

Are Large language models (LLMs) temporally grounded? Since LLMs cannot perceive and interact with the environment, it is impossible to answer this question directly. Instead, we provide LLMs with textual narratives and probe them with respect to their common-sense knowledge of the structure and duration of events, their ability to order events along a timeline, and self-consistency within their temporal model (e.g., temporal relations such as after and before are mutually exclusive for any pair of events). We evaluate state-of-the-art LLMs (such as LLaMA 2 and GPT-4) on three tasks reflecting these abilities. Generally, we find that LLMs lag significantly behind both human performance as well as small-scale, specialised LMs. In-context learning, instruction tuning, and chain-of-thought prompting reduce this gap only to a limited degree. Crucially, LLMs struggle the most with self-consistency, displaying incoherent behaviour in at least 27.23% of their predictions. Contrary to expectations, we also find that scaling the model size does not guarantee positive gains in performance. To explain these results, we study the sources from which LLMs may gather temporal information: we find that sentence ordering in unlabelled texts, available during pre-training, is only weakly correlated with event ordering. Moreover, public instruction tuning mixtures contain few temporal tasks. Hence, we conclude that current LLMs lack a consistent temporal model of textual narratives. Code, datasets, and LLM outputs are available at https://github.com/yfqiu-nlp/temporal-llms.

arxiv情報

著者 Yifu Qiu,Zheng Zhao,Yftah Ziser,Anna Korhonen,Edoardo M. Ponti,Shay B. Cohen
発行日 2023-11-14 18:57:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク