要約
大規模な言語モデルは、事前トレーニング中に見られる膨大な量の世界の知識を保持できますが、そのような知識は古くなりがちであり、更新するのは簡単ではありません。
さらに、これらのモデルは、過去に収集されたデータのみでトレーニングされているにもかかわらず、現在に関する質問に答えるという使命を帯びて、時間的な不整合の下で使用されることがよくあります。
時間的不整合の影響を軽減するために、ファクト継続時間予測、つまり特定のファクトがどれくらいの期間真実であり続けるかを予測するタスクを提案します。
私たちの実験では、どの事実が急速に変化する傾向があるかを特定することで、モデルが古い情報を暗唱することを回避し、どの予測に最新の知識ソースを探す必要があるかを判断するのに役立つことが実証されました。
また、ファクト期間のモデリングが、一時的な不整合のもとで、揮発性のファクトを破棄することで、自由検索質問応答などの知識集約型タスクのキャリブレーションをどのように改善するかについても示します。
私たちのデータとコードは https://github.com/mikejqzhang/mitigating_misalignment で公開されています。
要約(オリジナル)
While large language models are able to retain vast amounts of world knowledge seen during pretraining, such knowledge is prone to going out of date and is nontrivial to update. Furthermore, these models are often used under temporal misalignment, tasked with answering questions about the present, despite having only been trained on data collected in the past. To mitigate the effects of temporal misalignment, we propose fact duration prediction: the task of predicting how long a given fact will remain true. In our experiments, we demonstrate that identifying which facts are prone to rapid change can help models avoid reciting outdated information and determine which predictions require seeking out up-to-date knowledge sources. We also show how modeling fact duration improves calibration for knowledge-intensive tasks, such as open-retrieval question answering, under temporal misalignment, by discarding volatile facts. Our data and code are released publicly at https://github.com/mikejqzhang/mitigating_misalignment.
arxiv情報
著者 | Michael J. Q. Zhang,Eunsol Choi |
発行日 | 2024-03-05 16:32:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google