BRAINTEASER: Lateral Thinking Puzzles for Large Language Models

要約

言語モデルの成功により、NLP コミュニティは、人間のような常識メカニズムに依存して、暗黙的かつ複雑な推論を必要とするタスクに取り組むようになりました。
このような垂直思考のタスクは比較的人気がありますが、水平思考のパズルはあまり注目されていません。
このギャップを埋めるために、私たちは BRAINTEASER を考案しました。これは、水平思考を示し、デフォルトの常識的な関連付けを無視するモデルの能力をテストするように設計された多肢選択式の質問応答タスクです。
最初の水平思考ベンチマークを作成するための 3 段階の手順を設計します。これは、データ収集、気を散らす要因の生成、敵対的な例の生成で構成され、高品質の注釈が付いた 1,100 個のパズルが生成されます。
モデルによる水平推論の一貫性を評価するために、質問の意味論的および文脈上の再構築に基づいて BRAINTEASER を強化します。
最先端の命令モデルと常識的な言語モデルを使った実験では、人間とモデルのパフォーマンスの間に大きなギャップがあることが明らかになり、敵対的なフォーマット間での一貫性を考慮すると、そのギャップはさらに拡大します。
私たちは、水平思考モデルの開発と評価の作業を促進するために、すべてのコードとデータを利用できるようにしています。

要約(オリジナル)

The success of language models has inspired the NLP community to attend to tasks that require implicit and complex reasoning, relying on human-like commonsense mechanisms. While such vertical thinking tasks have been relatively popular, lateral thinking puzzles have received little attention. To bridge this gap, we devise BRAINTEASER: a multiple-choice Question Answering task designed to test the model’s ability to exhibit lateral thinking and defy default commonsense associations. We design a three-step procedure for creating the first lateral thinking benchmark, consisting of data collection, distractor generation, and generation of adversarial examples, leading to 1,100 puzzles with high-quality annotations. To assess the consistency of lateral reasoning by models, we enrich BRAINTEASER based on a semantic and contextual reconstruction of its questions. Our experiments with state-of-the-art instruction- and commonsense language models reveal a significant gap between human and model performance, which is further widened when consistency across adversarial formats is considered. We make all of our code and data available to stimulate work on developing and evaluating lateral thinking models.

arxiv情報

著者 Yifan Jiang,Filip Ilievski,Kaixin Ma,Zhivar Sourati
発行日 2023-11-09 19:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク