要約
生成 AI の急速な進歩により、特に言語理解やコード生成などのタスクの能力を考慮すると、その認知能力に対する関心が高まっています。
この研究では、いくつかの最近の GenAI モデルが、視空間計画と組織化の神経心理学的評価である Clock Drawing Test (CDT) でどのように機能するかを調査します。
モデルは時計のような図面を作成しますが、正確な時間を表現することに苦労し、軽度から重度の認知障害と同様の障害を示します (Wechsler、2009)。
エラーには、時計機能が正確にレンダリングされているにもかかわらず、数値シーケンスの問題、不正確な時計時間、無関係な追加などが含まれます。
GPT 4 Turbo と Gemini Pro 1.5 だけが正しい時間を記録し、健康な人と同じスコア (4/4) を記録しました。
フォローアップの時計読み取りテストでは、ソネット 3.5 のみが成功したことが判明し、数値概念の難しさから描画の欠陥が生じていることが示唆されました。
これらの発見は、視覚空間理解、作業記憶、または計算における弱点を反映している可能性があり、学習した知識における強みはあるものの推論における弱点を浮き彫りにしています。
人間と機械のパフォーマンスを比較することは、AI の認知能力を理解し、人間のような認知機能に向けて開発を導くために重要です。
要約(オリジナル)
Generative AI’s rapid advancement sparks interest in its cognitive abilities, especially given its capacity for tasks like language understanding and code generation. This study explores how several recent GenAI models perform on the Clock Drawing Test (CDT), a neuropsychological assessment of visuospatial planning and organization. While models create clock-like drawings, they struggle with accurate time representation, showing deficits similar to mild-severe cognitive impairment (Wechsler, 2009). Errors include numerical sequencing issues, incorrect clock times, and irrelevant additions, despite accurate rendering of clock features. Only GPT 4 Turbo and Gemini Pro 1.5 produced the correct time, scoring like healthy individuals (4/4). A follow-up clock-reading test revealed only Sonnet 3.5 succeeded, suggesting drawing deficits stem from difficulty with numerical concepts. These findings may reflect weaknesses in visual-spatial understanding, working memory, or calculation, highlighting strengths in learned knowledge but weaknesses in reasoning. Comparing human and machine performance is crucial for understanding AI’s cognitive capabilities and guiding development toward human-like cognitive functions.
arxiv情報
著者 | Isaac R. Galatzer-Levy,Jed McGiffin,David Munday,Xin Liu,Danny Karmon,Ilia Labzovsky,Rivka Moroshko,Amir Zait,Daniel McDuff |
発行日 | 2024-10-15 16:27:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google