要約
文字列間の正書法的類似性の尺度を提供するマスク付きプライミングデータを説明するために、様々な正書法コーディングスキームや視覚的単語識別のモデルが開発されてきました。これらのモデルは、特定の形式の知識(例えば、ある位置の文字や文字列を表す単位)を表す単一単位の符号化を伴う手書き正書法表現を含む傾向がある。本研究では、これらのコーディングスキームやモデルが、フォームプライミングプロジェクトで得られたフォームプライミング効果のパターンをどの程度説明できるかを評価し、コンピュータ科学で開発された11種類の標準的なディープニューラルネットワークモデル(DNN)で観測された結果と比較します。その結果、深層畳み込みネットワークは符号化方式や単語認識モデルと同等かそれ以上の性能を示し、一方、トランスフォーマーネットワークはそれほどでもないことがわかりました。畳み込みネットワークは、単語認識をサポートするために開発されたアーキテクチャではなく(物体認識で優れた性能を発揮するように設計されている)、単語のピクセル画像を分類する(むしろ文字列の人工的な符号化)ため、その成功は注目に値するものです。今回の発見は、畳み込みネットワークが視覚的な単語識別の重要な側面を捉えている可能性を示唆する(Hannaganら、2021)の最近の研究に追加される。
要約(オリジナル)
A wide variety of orthographic coding schemes and models of visual word identification have been developed to account for masked priming data that provide a measure of orthographic similarity between letter strings. These models tend to include hand-coded orthographic representations with single unit coding for specific forms of knowledge (e.g., units coding for a letter in a given position or a letter sequence). Here we assess how well a range of these coding schemes and models account for the pattern of form priming effects taken from the Form Priming Project and compare these findings to results observed in with 11 standard deep neural network models (DNNs) developed in computer science. We find that deep convolutional networks perform as well or better than the coding schemes and word recognition models, whereas transformer networks did less well. The success of convolutional networks is remarkable as their architectures were not developed to support word recognition (they were designed to perform well on object recognition) and they classify pixel images of words (rather artificial encodings of letter strings). The findings add to the recent work of (Hannagan et al., 2021) suggesting that convolutional networks may capture key aspects of visual word identification.
arxiv情報
著者 | Dong Yin,Valerio Biscione,Jeffrey Bowers |
発行日 | 2023-02-08 11:01:19+00:00 |
arxivサイト | arxiv_id(pdf) |