Are words equally surprising in audio and audio-visual comprehension?

要約

私たちは、音声言語の理解に対する視覚情報(つまり、話者を見ること)の影響を調査した対照研究を報告します。
同じ言語刺激の音声のみのプレゼンテーションと視聴覚プレゼンテーションの各単語に関連付けられた ERP シグネチャ (N400) を比較します。
各単語の N400 応答を予測するさまざまなタイプの言語モデル (特に n グラム モデルとトランスフォーマー モデル) に基づいて、意外な尺度 (語彙の文脈における単語の予測可能性を定量化する) がどの程度生成されるかを評価します。
私たちの結果は、マルチモーダル設定とユニモーダル設定では認知努力が大きく異なることを示しています。
さらに、我々の調査結果は、より大きな語彙コンテキストにアクセスできる Transformer ベースのモデルが音声のみの設定によりよく適合する一方で、2 グラム言語モデルはマルチモーダル設定でより効果的であることを示唆しています。
これは、マルチモーダル環境における認知処理に対するローカルの語彙コンテキストの重大な影響を強調しています。

要約(オリジナル)

We report a controlled study investigating the effect of visual information (i.e., seeing the speaker) on spoken language comprehension. We compare the ERP signature (N400) associated with each word in audio-only and audio-visual presentations of the same verbal stimuli. We assess the extent to which surprisal measures (which quantify the predictability of words in their lexical context) are generated on the basis of different types of language models (specifically n-gram and Transformer models) that predict N400 responses for each word. Our results indicate that cognitive effort differs significantly between multimodal and unimodal settings. In addition, our findings suggest that while Transformer-based models, which have access to a larger lexical context, provide a better fit in the audio-only setting, 2-gram language models are more effective in the multimodal setting. This highlights the significant impact of local lexical context on cognitive processing in a multimodal environment.

arxiv情報

著者 Pranava Madhyastha,Ye Zhang,Gabriella Vigliocco
発行日 2023-07-14 11:17:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク