要約
テキストベースのビジュアル質問応答 (TextVQA) は、冗長な関係推論を回避するという重大な課題に直面しています。
具体的には、多数のオブジェクトと光学式文字認識 (OCR) トークンが検出されると、視覚的な関係が豊かになります。
既存の作品では、答えの予測のためにすべての視覚的な関係が考慮されています。
ただし、次の 3 つの観察結果があります。(1) 画像内の単一の被写体が、明確な境界ボックスを持つ複数のオブジェクト (反復オブジェクトとみなされる) として簡単に検出される可能性があります。
これらの反復的なオブジェクト間の関連性は、答えを推論するには不必要です。
(2) 画像内で検出された 2 つの空間的に離れた OCR トークンは、回答推論に関して弱い意味依存関係を持っていることがよくあります。
(3) 近くの物体とトークンの共存は、答えを予測するための重要な視覚的手がかりを示している可能性があります。
すべてを答えの予測に利用するのではなく、最も重要な接続を特定するか、冗長な接続を削除するように努めます。
我々は、このタスクに空間を意識した関係枝刈り手法を導入する疎空間グラフ ネットワーク (SSGN) を提案します。
関係測定の空間要素として、空間距離、幾何学的寸法、重複領域、および空間を意識した枝刈りのための DIoU を採用します。
グラフ学習では、オブジェクトとオブジェクト、OCR と OCR トークンの関係、オブジェクトと OCR トークンの関係という 3 つの視覚的な関係を考慮します。
SSGN は、相関のあるオブジェクトとトークンのスパース グラフ、さらにそれぞれのオブジェクト ベースのスパース グラフとトークン ベースのスパース グラフにおける重要な関係を検証する、プログレッシブ グラフ学習アーキテクチャです。
TextVQA および ST-VQA データセットの実験結果は、SSGN が有望なパフォーマンスを達成していることを示しています。
また、いくつかの視覚化結果は、私たちの方法の解釈可能性をさらに実証しています。
要約(オリジナル)
Text-based visual question answering (TextVQA) faces the significant challenge of avoiding redundant relational inference. To be specific, a large number of detected objects and optical character recognition (OCR) tokens result in rich visual relationships. Existing works take all visual relationships into account for answer prediction. However, there are three observations: (1) a single subject in the images can be easily detected as multiple objects with distinct bounding boxes (considered repetitive objects). The associations between these repetitive objects are superfluous for answer reasoning; (2) two spatially distant OCR tokens detected in the image frequently have weak semantic dependencies for answer reasoning; and (3) the co-existence of nearby objects and tokens may be indicative of important visual cues for predicting answers. Rather than utilizing all of them for answer prediction, we make an effort to identify the most important connections or eliminate redundant ones. We propose a sparse spatial graph network (SSGN) that introduces a spatially aware relation pruning technique to this task. As spatial factors for relation measurement, we employ spatial distance, geometric dimension, overlap area, and DIoU for spatially aware pruning. We consider three visual relationships for graph learning: object-object, OCR-OCR tokens, and object-OCR token relationships. SSGN is a progressive graph learning architecture that verifies the pivotal relations in the correlated object-token sparse graph, and then in the respective object-based sparse graph and token-based sparse graph. Experiment results on TextVQA and ST-VQA datasets demonstrate that SSGN achieves promising performances. And some visualization results further demonstrate the interpretability of our method.
arxiv情報
著者 | Sheng Zhou,Dan Guo,Jia Li,Xun Yang,Meng Wang |
発行日 | 2023-10-13 14:39:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google