Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large Language Models During Predictive Language Processing

要約

大規模言語モデル (LLM) の高度な言語処理能力は、人間のような認知プロセスを再現する能力についての議論を刺激しています。
LLM と人間の言語処理を区別する要因の 1 つは、言語入力が複数の知覚モダリティに基づいていることが多いのに対し、ほとんどの LLM はテキストベースの情報のみを処理することです。
マルチモーダルグラウンディングは人間の統合を可能にします – 例:
言語情報を含む視覚的なコンテキストを認識し、それによって今後の単語の空間に制約を設け、認知負荷を軽減し、知覚と理解を向上させます。
最近のマルチモーダル LLM (mLLM) は、視覚的および言語的埋め込み空間と、次の単語を予測するためのトランスフォーマー タイプのアテンション メカニズムを組み合わせています。
マルチモーダル入力に基づく予測言語処理は、mLLM と人間でどの程度一致しますか?
この質問に答えるために、200 人の人間の参加者が短いオーディオビジュアル クリップを視聴し、次に現れる動詞または名詞の予測可能性を推定しました。
同じクリップが mLLM CLIP によって処理され、画像とテキストの特徴ベクトルの比較に基づいた予測スコアが付けられました。
参加者がどの視覚的特徴に注目しているかを推定するために視線追跡が使用され、CLIP の視覚的注意の重みが記録されました。
人間による予測可能性の推定値は CLIP スコアと大幅に一致しますが、同等のパラメーター サイズの単峰 LLM では一致しないことがわかりました。
さらに、CLIP の視覚的注意の重みが乱れた場合や、同じ入力が注意を払わずにマルチモーダル モデルに供給された場合、位置合わせは消失しました。
注意パターンを分析すると、CLIP の視覚的注意の重みと人間の視線追跡データの間に重要な空間的重複があることがわかりました。
結果は、関連する視覚的特徴への注意に導かれてマルチモーダル情報を統合する同等のプロセスが、mLLM と人間の予測言語処理をサポートしていることを示唆しています。

要約(オリジナル)

The advanced language processing abilities of large language models (LLMs) have stimulated debate over their capacity to replicate human-like cognitive processes. One differentiating factor between language processing in LLMs and humans is that language input is often grounded in more than one perceptual modality, whereas most LLMs process solely text-based information. Multimodal grounding allows humans to integrate – e.g. visual context with linguistic information and thereby place constraints on the space of upcoming words, reducing cognitive load and improving perception and comprehension. Recent multimodal LLMs (mLLMs) combine visual and linguistic embedding spaces with a transformer type attention mechanism for next-word prediction. To what extent does predictive language processing based on multimodal input align in mLLMs and humans? To answer this question, 200 human participants watched short audio-visual clips and estimated the predictability of an upcoming verb or noun. The same clips were processed by the mLLM CLIP, with predictability scores based on a comparison of image and text feature vectors. Eye-tracking was used to estimate what visual features participants attended to, and CLIP’s visual attention weights were recorded. We find that human estimates of predictability align significantly with CLIP scores, but not for a unimodal LLM of comparable parameter size. Further, alignment vanished when CLIP’s visual attention weights were perturbed, and when the same input was fed to a multimodal model without attention. Analysing attention patterns, we find a significant spatial overlap between CLIP’s visual attention weights and human eye-tracking data. Results suggest that comparable processes of integrating multimodal information, guided by attention to relevant visual features, supports predictive language processing in mLLMs and humans.

arxiv情報

著者 Viktor Kewenig,Christopher Edwards,Quitterie Lacome DEstalenx,Akilles Rechardt,Jeremy I Skipper,Gabriella Vigliocco
発行日 2023-08-11 09:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク