Are LLMs Good Cryptic Crossword Solvers?

要約

難解なクロスワードは、一般的な知識だけでなく、さまざまなレベルで言語を操作し、さまざまな種類の言葉遊びに対処するソルバーの能力にも依存するパズルです。
これまでの研究では、このようなパズルを解くことは、最新の NLP モデルであっても困難であることが示唆されています。
ただし、このタスクに関して大規模言語モデル (LLM) の機能はまだテストされていません。
この論文では、LLaMA2、Mistral、ChatGPT という 3 つの人気のある LLM のベンチマーク結果を確立し、このタスクにおけるパフォーマンスが人間のパフォーマンスにはまだ遠く及ばないことを示しています。

要約(オリジナル)

Cryptic crosswords are puzzles that rely not only on general knowledge but also on the solver’s ability to manipulate language on different levels and deal with various types of wordplay. Previous research suggests that solving such puzzles is a challenge even for modern NLP models. However, the abilities of large language models (LLMs) have not yet been tested on this task. In this paper, we establish the benchmark results for three popular LLMs — LLaMA2, Mistral, and ChatGPT — showing that their performance on this task is still far from that of humans.

arxiv情報

著者 Abdelrahman Sadallah,Daria Kotova,Ekaterina Kochmar
発行日 2025-01-13 11:46:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク