Learning the meanings of function words from grounded language using a visual question answering model

要約

「または」、「後ろ」、または「もっと」などの一見単純な機能語を解釈するには、論理的、数値的、および関係的な推論が必要になる場合があります。
そういった言葉は子どもたちはどうやって覚えていくのでしょうか?
以前の習得理論は、多くの場合、生得的な知識の基礎を仮定することに依存していました。
しかし、最近のニューラル ネットワーク ベースの視覚的質問応答モデルは、複雑な視覚的シーンに関する質問に応答する一環として機能語の使用を学習できるようです。
この論文では、モデルと子供の両方がこれらの単語の意味をどのように学習できるかをよりよく理解することを期待して、これらのモデルが機能語について何を学習するかを研究します。
視覚に基づいた言語でトレーニングされたリカレントモデルが、空間的および数値的推論を必要とする機能語の勾配意味論を学習することを示します。
さらに、これらのモデルは、論理的推論に関する事前知識がなくても、論理接続詞「および」と「または」の意味を学習できること、および言語を解釈する際に代替表現に敏感であるという初期の証拠を発見した。
最後に、単語学習の難しさはモデルの入力の頻度に依存することを示します。
私たちの発見は、言語的意味の事前知識がなくても、非記号的な一般統計学習アルゴリズムを使用することで、視覚的に根拠のある文脈で機能語の微妙な解釈を学習できるという概念実証を提供します。

要約(オリジナル)

Interpreting a seemingly-simple function word like ‘or’, ‘behind’, or ‘more’ can require logical, numerical, and relational reasoning. How are such words learned by children? Prior acquisition theories have often relied on positing a foundation of innate knowledge. Yet recent neural-network based visual question answering models apparently can learn to use function words as part of answering questions about complex visual scenes. In this paper, we study what these models learn about function words, in the hope of better understanding how the meanings of these words can be learnt by both models and children. We show that recurrent models trained on visually grounded language learn gradient semantics for function words requiring spacial and numerical reasoning. Furthermore, we find that these models can learn the meanings of logical connectives ‘and’ and ‘or’ without any prior knowledge of logical reasoning, as well as early evidence that they are sensitive to alternative expressions when interpreting language. Finally, we show that word learning difficulty is dependent on frequency in models’ input. Our findings offer proof-of-concept evidence that it is possible to learn the nuanced interpretations of function words in visually grounded context by using non-symbolic general statistical learning algorithms, without any prior knowledge of linguistic meaning.

arxiv情報

著者 Eva Portelance,Michael C. Frank,Dan Jurafsky
発行日 2024-01-29 18:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.10 パーマリンク