BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory Information

要約

非構造化自然テキストによる自動推論は、NLP の多くの潜在的なアプリケーションや堅牢な AI システムの開発にとって重要な要件です。
最近、言語モデル (LM) は、微調整を行わなくても複雑な推論能力を実証しました。
ただし、自動推論の既存の評価では、モデルが推論する一貫性のある一貫した情報セットへのアクセスが前提となっています。
現実世界で推論する場合、入手可能な情報は矛盾したり矛盾したりすることがよくあるため、モデルにはそのような矛盾が生じた場合にそれを解決する戦略が組み込まれている必要があります。
競合を解決する広く適用可能な方法の 1 つは、情報ソースに対して優先順位を課し (たとえば、ソースの信頼性や情報の最新性に基づいて)、より優先度の高いソースを採用することです。
この論文では、ソースに対する選好に導かれる矛盾した情報による推論の問題を、実行可能な推論の古典的な問題として定式化し、この設定におけるLMの推論能力を測定するためのBoardgameQAと呼ばれるデータセットを開発します。
また、BoardgameQA には暗黙的な背景知識を使用した推論も組み込まれており、下流のアプリケーションでの推論の問題をより適切に反映できます。
私たちは BoardgameQA でさまざまな LM のベンチマークを行いました。その結果、この問題に関する最先端の LM の推論能力に大きなギャップがあることが明らかになり、矛盾する情報による推論が LM ではそのままでは表面化しないことがわかりました。
パフォーマンスは微調整によって改善できますが、依然として低いままです。

要約(オリジナル)

Automated reasoning with unstructured natural text is a key requirement for many potential applications of NLP and for developing robust AI systems. Recently, Language Models (LMs) have demonstrated complex reasoning capacities even without any finetuning. However, existing evaluation for automated reasoning assumes access to a consistent and coherent set of information over which models reason. When reasoning in the real-world, the available information is frequently inconsistent or contradictory, and therefore models need to be equipped with a strategy to resolve such conflicts when they arise. One widely-applicable way of resolving conflicts is to impose preferences over information sources (e.g., based on source credibility or information recency) and adopt the source with higher preference. In this paper, we formulate the problem of reasoning with contradictory information guided by preferences over sources as the classical problem of defeasible reasoning, and develop a dataset called BoardgameQA for measuring the reasoning capacity of LMs in this setting. BoardgameQA also incorporates reasoning with implicit background knowledge, to better reflect reasoning problems in downstream applications. We benchmark various LMs on BoardgameQA and the results reveal a significant gap in the reasoning capacity of state-of-the-art LMs on this problem, showing that reasoning with conflicting information does not surface out-of-the-box in LMs. While performance can be improved with finetuning, it nevertheless remains poor.

arxiv情報

著者 Mehran Kazemi,Quan Yuan,Deepti Bhatia,Najoung Kim,Xin Xu,Vaiva Imbrasaite,Deepak Ramachandran
発行日 2023-06-13 17:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク