Does Vision Accelerate Hierarchical Generalization in Neural Language Learners?

要約

言語習得の観点から見ると、ニューラル言語モデル (LM) はおそらく人間よりもデータ効率が低いでしょう。
根本的な疑問の 1 つは、なぜ人間と LM のギャップが生じるのかということです。
この研究では、地に足をつけた言語習得の利点、特に人間が通常は頼りにできるが、言語習得中にLMがほとんどアクセスできない視覚情報がLMの構文一般化に及ぼす影響を調査している。
2 つのシナリオ (人工画像と自然主義画像を使用) の下での刺激パラダイムの貧困に従った私たちの実験は、言語コンポーネントと視覚コンポーネントの間の整合性が入力内で明確であれば、視覚データへのアクセスが LM の構文一般化に役立つことを示しています。
ただし、そうでない場合は、視覚的な入力は役に立ちません。
これは、クロスモーダルアラインメントを強化し、マルチモーダル LM で効率的な構文一般化を可能にするために、相互注視などの追加のバイアスまたはシグナルの必要性を強調しています。

要約(オリジナル)

Neural language models (LMs) are arguably less data-efficient than humans from a language acquisition perspective. One fundamental question is why this human-LM gap arises. This study explores the advantage of grounded language acquisition, specifically the impact of visual information — which humans can usually rely on but LMs largely do not have access to during language acquisition — on syntactic generalization in LMs. Our experiments, following the poverty of stimulus paradigm under two scenarios (using artificial vs. naturalistic images), demonstrate that if the alignments between the linguistic and visual components are clear in the input, access to vision data does help with the syntactic generalization of LMs, but if not, visual input does not help. This highlights the need for additional biases or signals, such as mutual gaze, to enhance cross-modal alignment and enable efficient syntactic generalization in multimodal LMs.

arxiv情報

著者 Tatsuki Kuribayashi,Timothy Baldwin
発行日 2024-10-01 16:29:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク