A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models

要約

視覚的なコンテキストにおける自然言語についての推論が必要なタスクの鍵となるのは、単語やフレーズを画像領域に定着させることです。
しかし、現代のモデルでこの根拠を観察することは、一般化につながる方法でタスクに対処した場合にそれが起こることが一般に期待されているとしても、複雑です。
タスクのパフォーマンスとフレーズグラウンディングを共同で研究するためのフレームワークを提案し、この 2 つの関係を研究するための 3 つのベンチマークを提案します。
私たちの結果は、現代のモデルがフレーズを理解する能力とタスクを解決する能力の間に一貫性がないことを示していることを示しています。
私たちは、地上のフレージング注釈に対するブルートフォース トレーニングを通じてこの問題にどのように対処できるかを示し、それが生み出すダイナミクスを分析します。
コードは https://github.com/lil-lab/phrase_grounding から入手できます。

要約(オリジナル)

Key to tasks that require reasoning about natural language in visual contexts is grounding words and phrases to image regions. However, observing this grounding in contemporary models is complex, even if it is generally expected to take place if the task is addressed in a way that is conductive to generalization. We propose a framework to jointly study task performance and phrase grounding, and propose three benchmarks to study the relation between the two. Our results show that contemporary models demonstrate inconsistency between their ability to ground phrases and solve tasks. We show how this can be addressed through brute-force training on ground phrasing annotations, and analyze the dynamics it creates. Code and at available at https://github.com/lil-lab/phrase_grounding.

arxiv情報

著者 Noriyuki Kojima,Hadar Averbuch-Elor,Yoav Artzi
発行日 2023-09-06 03:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク