要約
人間の子供と機械学習システムにとって、単語を学習する際の重要な課題は、その単語を、その単語が表す視覚的現象に関連付けることです。
モデル出力を子供の言語学習データの分析に使用される単語カテゴリに整理することにより、子供の単語学習と画像キャプションモデルのパフォーマンスとの対応を示します。
キャプション モデルは標準的な機械学習データのみでトレーニングされますが、さまざまな単語カテゴリから単語を生成する際のパフォーマンスは、子供がこれらの各カテゴリから単語を取得する年齢と相関することがわかりました。
この対応が存在する理由を説明するために、キャプションモデルのパフォーマンスが言葉の具体性に関する人間の判断と相関していることを示し、これらのモデルが言葉と視覚現象の間の複雑な現実世界の関連性を捉えていることを示唆しています。
要約(オリジナル)
For human children as well as machine learning systems, a key challenge in learning a word is linking the word to the visual phenomena it describes. By organizing model output into word categories used to analyze child language learning data, we show a correspondence between word learning in children and the performance of image captioning models. Although captioning models are trained only on standard machine learning data, we find that their performance in producing words from a variety of word categories correlates with the age at which children acquire words from each of those categories. To explain why this correspondence exists, we show that the performance of captioning models is correlated with human judgments of the concreteness of words, suggesting that these models are capturing the complex real-world association between words and visual phenomena.
arxiv情報
著者 | Sunayana Rane,Mira L. Nencheva,Zeyu Wang,Casey Lew-Williams,Olga Russakovsky,Thomas L. Griffiths |
発行日 | 2022-10-10 13:40:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google