Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving and Einstellung Effect using the Only Connect Wall Dataset

要約

人間を模倣する AI の探求は、AI 研究の当初からの永遠のテーマです。
大規模言語モデル (LLM) の最新コホートの技術的進化と新たな機能により、この主題は学術界を超えて文化的な時代精神にまで再活性化されました。
最近の NLP 評価ベンチマーク タスクでは、人間を模倣する行動のいくつかの側面 (たとえば、BIG ベンチの「人間に似た行動」タスク) がテストされていますが、創造的な問題解決能力を検証しているものは、まったくないにしてもほとんどありません。
人間における創造的な問題解決は、認知神経科学においてよく研究されているテーマであり、標準化されたテストでは主に手がかりとなる単語間の(異質な)つながりを創造性の指標として使用することが行われています。
誤解を招く刺激(赤ニシンと呼ばれる気を散らすもの)にさらされると、固視効果とアインシュテルングのパラダイムによって、そのような作業における人間のパフォーマンスが妨げられます。
認知神経科学の研究では、そのような固着は、参加者に後続の単語の断片または手がかりと正書法的に似た不正確な単語を事前に曝露することによって実験的に誘発されます。
英国の人気クイズ番組 Only Connect のコネクティング ウォール セグメントは、基本的にメドニックのリモート アソシエイツ テスト (RAT) の定式化を模倣しており、意図的なレッドニシンが組み込まれているため、LLM における認知神経科学からの固視効果とアインシュテルング パラダイムを探索および研究するための理想的な代用データセットとなっています。

この論文では、新しい Only Connect Wall (OCW) データセットを紹介し、異種接続による手がかり単語のグループ化や、正しいオープン知識ドメイン接続の特定などの創造的な問題解決タスクに関する、選択された事前トレーニング済み言語モデルと LLM の評価結果を報告します。
それぞれのグループ。
言語モデルにおける赤ニシン仮説をさらに分析するために、OCW-Randomized、OCW-WordNet という 2 つの追加データセットを合成的に生成します。
コードとデータセットへのリンクは、https://github.com/TaatiTeam/OCW で入手できます。

要約(オリジナル)

The quest for human imitative AI has been an enduring topic in AI research since its inception. The technical evolution and emerging capabilities of the latest cohort of large language models (LLMs) have reinvigorated the subject beyond academia to the cultural zeitgeist. While recent NLP evaluation benchmark tasks test some aspects of human-imitative behaviour (e.g., BIG-bench’s ‘human-like behavior’ tasks), few, if not none, examine creative problem solving abilities. Creative problem solving in humans is a well-studied topic in cognitive neuroscience with standardized tests that predominantly use the ability to associate (heterogeneous) connections among clue words as a metric for creativity. Exposure to misleading stimuli – distractors dubbed red herrings – impede human performance in such tasks via the fixation effect and Einstellung paradigm. In cognitive neuroscience studies, such fixations are experimentally induced by pre-exposing participants to orthographically similar incorrect words to subsequent word-fragments or clues. The popular British quiz show Only Connect’s Connecting Wall segment essentially mimics Mednick’s Remote Associates Test (RAT) formulation with built-in, deliberate red herrings, which makes it an ideal proxy dataset to explore and study fixation effect and Einstellung paradigm from cognitive neuroscience in LLMs. In this paper we present the novel Only Connect Wall (OCW) dataset and report results from our evaluation of selected pre-trained language models and LLMs on creative problem solving tasks like grouping clue words by heterogeneous connections, and identifying correct open knowledge domain connections in respective groups. We synthetically generate two additional datasets: OCW-Randomized, OCW-WordNet to further analyze our red-herrings hypothesis in language models. The code and link to the dataset are available at https://github.com/TaatiTeam/OCW.

arxiv情報

著者 Saeid Naeini,Raeid Saqur,Mozhgan Saeidi,John Giorgi,Babak Taati
発行日 2023-08-28 15:34:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク