Like a bilingual baby: The advantage of visually grounding a bilingual language model

要約

ほとんどのニューラル言語モデルとは異なり、人間は豊かで多感覚の、そして多くの場合、多言語環境で言語を学習します。
現在の言語モデルは通常、多言語使用の複雑さを完全に捉えることができません。
MS-COCO-ES から英語とスペイン語の画像とキャプションで LSTM 言語モデルをトレーニングします。
視覚的なグラウンディングにより、言語内および言語間でのモデルの意味的類似性の理解が向上し、困惑が改善されることがわかりました。
ただし、抽象的な言葉の視覚的な根拠には大きな利点はありません。
私たちの結果は、視覚的に根拠のある言語モデルの利点の追加の証拠を提供し、多言語話者からのより自然主義的な言語データと、知覚的根拠を持つ多言語データセットの必要性を示しています。

要約(オリジナル)

Unlike most neural language models, humans learn language in a rich, multi-sensory and, often, multi-lingual environment. Current language models typically fail to fully capture the complexities of multilingual language use. We train an LSTM language model on images and captions in English and Spanish from MS-COCO-ES. We find that the visual grounding improves the model’s understanding of semantic similarity both within and across languages and improves perplexity. However, we find no significant advantage of visual grounding for abstract words. Our results provide additional evidence of the advantages of visually grounded language models and point to the need for more naturalistic language data from multilingual speakers and multilingual datasets with perceptual grounding.

arxiv情報

著者 Khai-Nguyen Nguyen,Zixin Tang,Ankur Mali,Alex Kelly
発行日 2023-02-13 21:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク