要約
大規模な言語モデル(LLMS)は、驚くほどの事実の世界知識をカプセル化します。
ただし、時間的な質問と歴史的知識に関する彼らのパフォーマンスは、時間的範囲と方向性を理解したり、時間的側面を完全に無視したりすることができないため、限られています。
この研究では、時間情報を処理し、時間的推論と一時的な事実知識を必要とするタスクを実行する能力に基づいて、質問に答えるためのLLMがどれほど堅牢であるかを正確に測定することを目指しています。
具体的には、ゼロショット設定で6つの一般的なLLMの感度をチェックするために、事実情報のために8つの時間に敏感な堅牢性テストを設計します。
全体として、LLMは、特に時間的再構成と、さまざまな粒度の時間的参照の使用において、時間的堅牢性を欠いていることがわかります。
これらの8つのテストの選択を自動的に使用して、モデルの時間的堅牢性をその場でのユーザーの質問に対して判断する方法を示します。
最後に、この研究の結果を適用して、時間的QAパフォーマンスを最大55%改善します。
要約(オリジナル)
Large Language Models (LLMs) encapsulate a surprising amount of factual world knowledge. However, their performance on temporal questions and historical knowledge is limited because they often cannot understand temporal scope and orientation or neglect the temporal aspect altogether. In this study, we aim to measure precisely how robust LLMs are for question answering based on their ability to process temporal information and perform tasks requiring temporal reasoning and temporal factual knowledge. Specifically, we design eight time-sensitive robustness tests for factual information to check the sensitivity of six popular LLMs in the zero-shot setting. Overall, we find LLMs lacking temporal robustness, especially to temporal reformulations and the use of different granularities of temporal references. We show how a selection of these eight tests can be used automatically to judge a model’s temporal robustness for user questions on the fly. Finally, we apply the findings of this study to improve the temporal QA performance by up to 55 percent.
arxiv情報
著者 | Jonas Wallat,Abdelrahman Abdallah,Adam Jatowt,Avishek Anand |
発行日 | 2025-03-21 11:56:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google