The Scenario Refiner: Grounding subjects in images at the morphological level

要約

「ランナー」や「ランニング」などの派生的に関連する単語は意味上の違いを示し、それが異なる視覚的なシナリオも引き出します。
この論文では、新しい方法論とデータセットを使用して、視覚と言語 (V\&L) モデルが形態学的レベルでそのような区別を捉えているかどうかを尋ねます。
V\&L モデルの結果を人間の判断と比較したところ、モデルの予測が人間の参加者の予測とは異なり、特に文法的なバイアスが見られることがわかりました。
さらに、人体モデルの不整合がモデルのアーキテクチャに関連しているかどうかを調査します。
1 つの特定の形態学的コントラストに基づいて開発された私たちの方法論は、他の微妙な言語の特徴を捕捉するモデルをテストするためにさらに拡張できます。

要約(オリジナル)

Derivationally related words, such as ‘runner’ and ‘running’, exhibit semantic differences which also elicit different visual scenarios. In this paper, we ask whether Vision and Language (V\&L) models capture such distinctions at the morphological level, using a a new methodology and dataset. We compare the results from V\&L models to human judgements and find that models’ predictions differ from those of human participants, in particular displaying a grammatical bias. We further investigate whether the human-model misalignment is related to model architecture. Our methodology, developed on one specific morphological contrast, can be further extended for testing models on capturing other nuanced language features.

arxiv情報

著者 Claudia Tagliaferri,Sofia Axioti,Albert Gatt,Denis Paperno
発行日 2023-09-20 12:23:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク