Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

要約

リブスは、画像と文字のセットから隠されたフレーズを特定するために、制約された多段階推論を必要とするパズルである。この研究では、イタリア語の言語化されたリブスの大規模なコレクションを紹介し、それを用いて最新の大規模言語モデルのリブス解決能力を評価する。LLaMA-3やGPT-4oのような汎用的なシステムはこのタスクで劣るが、アドホックな微調整はモデルの性能を向上させるようである。しかし、訓練による性能向上は、主に記憶によるものであることがわかった。この結果から、レバス解法は、大規模言語モデルの言語的熟達度や逐次的な命令追従能力を評価する上で、依然として困難なテストベッドであることが示唆される。

要約(オリジナル)

Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models’ performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models’ linguistic proficiency and sequential instruction-following skills.

arxiv情報

著者 Gabriele Sarti,Tommaso Caselli,Malvina Nissim,Arianna Bisazza
発行日 2024-08-01 14:14:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク