Multimodality and Attention Increase Alignment in Natural Language Prediction Between Humans and Computational Models

要約

マルチモーダル生成人工知能 (mAI) が、コミュニケーションの実践的でコンテキストに富んだ側面を含め、人間の地に足の着いた言語理解を再現できる可能性は、まだ解明されていません。
人間は、今後の単語の処理を容易にするために、視覚的な手がかりなどの顕著なマルチモーダルな機能を使用することが知られています。
同様に、マルチモーダル計算モデルは、視覚的注意メカニズムを使用して視覚データと言語データを統合し、次の単語の確率を割り当てることができます。
これらのプロセスが一致しているかどうかをテストするために、人間の参加者 (N = 200) といくつかの最先端の計算モデルの両方に、音声のみの短いクリップまたは音声付きの音声映像クリップを視聴した後、次に来る単語の予測可能性を評価するという課題を課しました。

タスク中、モデルの注意の重みが記録され、視線追跡によって人間の注意が指標化されました。
結果は、人間による予測可能性の推定値が、単峰性モデルと比較して多峰性モデルから生成されたスコアとより密接に一致していることを示しています。
さらに、注意メカニズムを組み込むことで、視覚的および言語的コンテキストによって予測が容易になる場合に、人間の判断との整合性が倍増しました。
これらのケースでは、モデルの注意パッチと人間の視線追跡が大幅に重なっていました。
私たちの結果は、mAI における自然主義的言語処理のモデリングの改善は、単にトレーニング食に依存するのではなく、注意ベースのアーキテクチャと組み合わせたマルチモダリティによって推進できることを示しています。
人間も計算モデルも同様に、入力内の関連する特徴に注目することで、マルチモーダル情報の予測制約を活用できます。

要約(オリジナル)

The potential of multimodal generative artificial intelligence (mAI) to replicate human grounded language understanding, including the pragmatic, context-rich aspects of communication, remains to be clarified. Humans are known to use salient multimodal features, such as visual cues, to facilitate the processing of upcoming words. Correspondingly, multimodal computational models can integrate visual and linguistic data using a visual attention mechanism to assign next-word probabilities. To test whether these processes align, we tasked both human participants (N = 200) as well as several state-of-the-art computational models with evaluating the predictability of forthcoming words after viewing short audio-only or audio-visual clips with speech. During the task, the model’s attention weights were recorded and human attention was indexed via eye tracking. Results show that predictability estimates from humans aligned more closely with scores generated from multimodal models vs. their unimodal counterparts. Furthermore, including an attention mechanism doubled alignment with human judgments when visual and linguistic context facilitated predictions. In these cases, the model’s attention patches and human eye tracking significantly overlapped. Our results indicate that improved modeling of naturalistic language processing in mAI does not merely depend on training diet but can be driven by multimodality in combination with attention-based architectures. Humans and computational models alike can leverage the predictive constraints of multimodal information by attending to relevant features in the input.

arxiv情報

著者 Viktor Kewenig,Andrew Lampinen,Samuel A. Nastase,Christopher Edwards,Quitterie Lacome DEstalenx,Akilles Rechardt,Jeremy I Skipper,Gabriella Vigliocco
発行日 2024-01-02 15:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク