Comparative Multi-View Language Grounding

要約

この研究では、比較言語記述が与えられたときにオブジェクトの指示対象を解決するタスクを検討します。
私たちは、トランスフォーマーを利用して、複数の画像ビューと言語記述が与えられたオブジェクトの両方を実際的に推論する、コンテキスト内でグラウンディングするためのマルチビュー アプローチ (MAGiC) を提案します。
結果として得られる参照コンテキストを十分に考慮することなく、このタスクのために視覚と言語を結び付けようとするこれまでの取り組みとは対照的に、MAGiC は、オブジェクト参照対象候補と参照言語表現の両方の複数のビューを共同で推論することにより、比較情報を利用します。
比較推論が SNARE オブジェクト参照タスクの SOTA パフォーマンスに貢献することを示す分析を紹介します。

要約(オリジナル)

In this work, we consider the task of resolving object referents when given a comparative language description. We present a Multi-view Approach to Grounding in Context (MAGiC) that leverages transformers to pragmatically reason over both objects given multiple image views and a language description. In contrast to past efforts that attempt to connect vision and language for this task without fully considering the resulting referential context, MAGiC makes use of the comparative information by jointly reasoning over multiple views of both object referent candidates and the referring language expression. We present an analysis demonstrating that comparative reasoning contributes to SOTA performance on the SNARE object reference task.

arxiv情報

著者 Chancharik Mitra,Abrar Anwar,Rodolfo Corona,Dan Klein,Jesse Thomason
発行日 2023-11-12 00:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク