要約
目覚ましい成功を収めているにもかかわらず、最先端の言語モデルは、特定の重要な意味論的詳細を把握するという課題に直面しています。
このペーパーでは、言語モデルの意味論的および語彙的理解を評価するために設計された VISLA (意味論的および語彙変更に対する分散と不変性) ベンチマークを紹介します。
VISLA は、視覚言語モデル (VLM) と単峰性言語モデル (ULM) の両方を評価するために、画像に関連付けられた文のトリプレットを使用した 3 方向の意味論的 (不) 等価性タスクを提示します。
34 個の VLM と 20 個の ULM を含む評価では、語彙的バリエーションと意味論的バリエーションを区別することが驚くほど困難であることが明らかになりました。
言語モデルによってエンコードされた空間意味論も、語彙情報に非常に敏感であるようです。
特に、VLM のテキスト エンコーダは、単峰性のテキスト エンコーダよりも意味論的および語彙の変化に対してより高い感度を示します。
私たちの貢献には、画像からテキストへの検索タスクとテキストからテキストへの検索タスクの統合、微調整を必要としない既製の評価、語彙変更が存在する場合の LM の意味論的 (不) 分散の評価が含まれます。
結果は、多様なビジョンと単峰性言語モデルにわたる長所と短所を浮き彫りにし、その機能のより深い理解に貢献します。
% VISLA は厳密な評価を可能にし、意味論的および語彙上のニュアンスを処理する言語モデルの機能に光を当てます。
データとコードは https://github.com/Sri-Harsha/visla_benchmark で利用可能になります。
要約(オリジナル)
Despite their remarkable successes, state-of-the-art language models face challenges in grasping certain important semantic details. This paper introduces the VISLA (Variance and Invariance to Semantic and Lexical Alterations) benchmark, designed to evaluate the semantic and lexical understanding of language models. VISLA presents a 3-way semantic (in)equivalence task with a triplet of sentences associated with an image, to evaluate both vision-language models (VLMs) and unimodal language models (ULMs). An evaluation involving 34 VLMs and 20 ULMs reveals surprising difficulties in distinguishing between lexical and semantic variations. Spatial semantics encoded by language models also appear to be highly sensitive to lexical information. Notably, text encoders of VLMs demonstrate greater sensitivity to semantic and lexical variations than unimodal text encoders. Our contributions include the unification of image-to-text and text-to-text retrieval tasks, an off-the-shelf evaluation without fine-tuning, and assessing LMs’ semantic (in)variance in the presence of lexical alterations. The results highlight strengths and weaknesses across diverse vision and unimodal language models, contributing to a deeper understanding of their capabilities. % VISLA enables a rigorous evaluation, shedding light on language models’ capabilities in handling semantic and lexical nuances. Data and code will be made available at https://github.com/Sri-Harsha/visla_benchmark.
arxiv情報
著者 | Sri Harsha Dumpala,Aman Jaiswal,Chandramouli Sastry,Evangelos Milios,Sageev Oore,Hassan Sajjad |
発行日 | 2024-04-25 07:08:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google