Solving and Generating NPR Sunday Puzzles with Large Language Models

要約

私たちは、15 年間のオンエア パズルで構成されるデータセットである PUZZLEQA を使用して、NPR サンデー パズル ゲーム ショーのパズルを解決および生成する大規模な言語モデルの能力を調査します。
私たちは、PUZZLEQA を使用して、多肢選択形式と自由応答形式の両方で 4 つの大規模な言語モデルを評価し、自由応答のパフォーマンスを向上させるための 2 つのプロンプト エンジニアリング手法、つまり思考連鎖推論とプロンプト要約を調査します。
最先端の大規模言語モデルが多くの PUZZLEQA パズルを解決できることがわかりました。最高のモデルである GPT-3.5 は 50.2% の緩い精度を達成しています。
ただし、数ショット パズル生成の実験では、モデルがパズルを生成できるという証拠は見つかりませんでした。GPT-3.5 は、生成されたルールに準拠しない答えを持つパズルを生成します。
パズルの生成は今後の課題として残ります。

要約(オリジナル)

We explore the ability of large language models to solve and generate puzzles from the NPR Sunday Puzzle game show using PUZZLEQA, a dataset comprising 15 years of on-air puzzles. We evaluate four large language models using PUZZLEQA, in both multiple choice and free response formats, and explore two prompt engineering techniques to improve free response performance: chain-of-thought reasoning and prompt summarization. We find that state-of-the-art large language models can solve many PUZZLEQA puzzles: the best model, GPT-3.5, achieves 50.2% loose accuracy. However, in our few-shot puzzle generation experiment, we find no evidence that models can generate puzzles: GPT-3.5 generates puzzles with answers that do not conform to the generated rules. Puzzle generation remains a challenging task for future work.

arxiv情報

著者 Jingmiao Zhao,Carolyn Jane Anderson
発行日 2023-06-21 13:23:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク