CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension


自然言語表現によって記述された画像領域のローカライズを目的としたマルチモーダル参照表現理解 (REC) のタスクは、最近、研究コミュニティ内でますます注目を集めています。
このホワイトペーパーでは、特に、空間的、視覚的、または意味的な情報を超えた推論を通常必要とするタスクである、常識的な知識 (KB-Ref) を使用した参照表現の理解に焦点を当てます。
常識知識を画像内のオブジェクトの表現に効果的に統合し、表現によって参照されるターゲットオブジェクトの識別を容易にする、常識知識拡張トランスフォーマー (CK-Transformer) の新しいフレームワークを提案します。
私たちの結果は、提案された CK-Transformer が新しい最先端技術を達成し、既存の最先端技術よりも 3.14% の精度の絶対的な改善を達成することを示しています。


The task of multimodal referring expression comprehension (REC), aiming at localizing an image region described by a natural language expression, has recently received increasing attention within the research comminity. In this paper, we specifically focus on referring expression comprehension with commonsense knowledge (KB-Ref), a task which typically requires reasoning beyond spatial, visual or semantic information. We propose a novel framework for Commonsense Knowledge Enhanced Transformers (CK-Transformer) which effectively integrates commonsense knowledge into the representations of objects in an image, facilitating identification of the target objects referred to by the expressions. We conduct extensive experiments on several benchmarks for the task of KB-Ref. Our results show that the proposed CK-Transformer achieves a new state of the art, with an absolute improvement of 3.14% accuracy over the existing state of the art.


著者 Zhi Zhang,Helen Yannakoudakis,Xiantong Zhen,Ekaterina Shutova
発行日 2023-02-17 17:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク