WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large Language Models

要約

私たちは、LLM がエンティティの単純な配置の記述から単純な推論をどのように引き出すかをテストすることによって、LLM が暗黙の世界モデルを一貫して維持できる程度を評価するために設計されたベンチマークである WorldSense を提案します。
Worldsense は 3 つの問題タイプを備えた合成ベンチマークであり、それぞれに独自の自明な制御があり、語彙や表現から問題の抽象構造を非相関化し、すべての問題の部分部分を正しい応答と非相関化することでバイアスを明示的に回避します。
3 つの最先端のチャット LLM (GPT3.5、GPT4、および Llama2 チャット) でベンチマークを実行し、これらのモデルがわずか 3 つのオブジェクトでもエラーを起こすことを示しました。
さらに、彼らは非常に大きな回答バイアスを持っており、質問に関係なく特定の回答を好みます。
思考連鎖のプロンプトやコンテキスト内での学習を行っても、エラーは残ります。
最後に、同様の問題を微調整すると、配布内および配布外で大幅な改善がもたらされる一方で、微調整されたモデルは制約問題空間を超えて一般化されないことを示します。

要約(オリジナル)

We propose WorldSense, a benchmark designed to assess the extent to which LLMs are consistently able to sustain tacit world models, by testing how they draw simple inferences from descriptions of simple arrangements of entities. Worldsense is a synthetic benchmark with three problem types, each with their own trivial control, which explicitly avoids bias by decorrelating the abstract structure of problems from the vocabulary and expressions, and by decorrelating all problem subparts with the correct response. We run our benchmark on three state-of-the-art chat-LLMs (GPT3.5, GPT4 and Llama2-chat) and show that these models make errors even with as few as three objects. Furthermore, they have quite heavy response biases, preferring certain responses irrespective of the question. Errors persist even with chain-of-thought prompting and in-context learning. Lastly, we show that while finetuning on similar problems does result in substantial improvements — within- and out-of-distribution — the finetuned models do not generalise beyond a constraint problem space.

arxiv情報

著者 Youssef Benchekroun,Megi Dervishi,Mark Ibrahim,Jean-Baptiste Gaya,Xavier Martinet,Grégoire Mialon,Thomas Scialom,Emmanuel Dupoux,Dieuwke Hupkes,Pascal Vincent
発行日 2023-11-27 15:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク