Temporal Blind Spots in Large Language Models

要約

大規模言語モデル (LLM) は、さまざまな自然言語処理タスクを実行できる比類のない能力により、最近大きな注目を集めています。
これらのモデルは、高度な自然言語理解機能の恩恵を受けて、印象的なゼロショット パフォーマンスを実証しました。
ただし、LLM で利用される事前トレーニング データは特定のコーパスに限定されることが多く、その結果、固有の鮮度や時間的範囲の制限が生じます。
したがって、これは、一時的な意図を伴うタスクに対する LLM の有効性に関する懸念を引き起こします。
この研究では、一時的な理解を必要とするタスクに汎用 LLM を導入した場合の根本的な制限を調査することを目的としています。
私たちは、3 つの一般的な時間 QA データセットを通じて事実の時間知識を処理することに特に注意を払っています。
具体的には、過去に関する詳細な質問と、驚くべきことに、比較的新しい情報に関する詳細な質問のパフォーマンスが低いことが観察されます。
手動および自動テストでは、複数の一時的なエラーを発見し、QA パフォーマンスが低下する条件を特徴付けます。
私たちの分析は、LLM の制限を理解するのに貢献し、時間指向のタスクの要求にさらに対応できる将来のモデルを開発する上で貴重な洞察を提供します。
コードは\脚注{https://github.com/jwallat/temporalblindspots}から入手できます。

要約(オリジナル)

Large language models (LLMs) have recently gained significant attention due to their unparalleled ability to perform various natural language processing tasks. These models, benefiting from their advanced natural language understanding capabilities, have demonstrated impressive zero-shot performance. However, the pre-training data utilized in LLMs is often confined to a specific corpus, resulting in inherent freshness and temporal scope limitations. Consequently, this raises concerns regarding the effectiveness of LLMs for tasks involving temporal intents. In this study, we aim to investigate the underlying limitations of general-purpose LLMs when deployed for tasks that require a temporal understanding. We pay particular attention to handling factual temporal knowledge through three popular temporal QA datasets. Specifically, we observe low performance on detailed questions about the past and, surprisingly, for rather new information. In manual and automatic testing, we find multiple temporal errors and characterize the conditions under which QA performance deteriorates. Our analysis contributes to understanding LLM limitations and offers valuable insights into developing future models that can better cater to the demands of temporally-oriented tasks. The code is available\footnote{https://github.com/jwallat/temporalblindspots}.

arxiv情報

著者 Jonas Wallat,Adam Jatowt,Avishek Anand
発行日 2024-01-22 16:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク