Multimodal Shannon Game with Images

要約

シャノン ゲームは、言語学と NLP の思考実験として長い間使用されてきました。参加者は、前の文脈に基づいて文の次の文字を推測します。
画像情報の形でオプションの追加モダリティを導入することで、ゲームを拡張します。
このゲームにおけるマルチモーダル情報の影響を調査するために、人間の参加者と言語モデル (LM、GPT-2) を使用します。
画像情報の追加により、人間と LM の両方の自己申告の信頼性と精度が向上することがわかりました。
名詞や限定詞などの特定の単語クラスは、追加のモダリティ情報からより多くの恩恵を受けます。
人間と LM の両方におけるプライミング効果は、コンテキスト サイズ (追加のモダリティ情報 + 文のコンテキスト) が増加するにつれて、より明確になります。
これらの調査結果は、言語理解とモデリングの改善におけるマルチモーダル情報の可能性を強調しています。

要約(オリジナル)

The Shannon game has long been used as a thought experiment in linguistics and NLP, asking participants to guess the next letter in a sentence based on its preceding context. We extend the game by introducing an optional extra modality in the form of image information. To investigate the impact of multimodal information in this game, we use human participants and a language model (LM, GPT-2). We show that the addition of image information improves both self-reported confidence and accuracy for both humans and LM. Certain word classes, such as nouns and determiners, benefit more from the additional modality information. The priming effect in both humans and the LM becomes more apparent as the context size (extra modality information + sentence context) increases. These findings highlight the potential of multimodal information in improving language understanding and modeling.

arxiv情報

著者 Vilém Zouhar,Sunit Bhattacharya,Ondřej Bojar
発行日 2023-03-20 15:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク