Visual Semantic Parsing: From Images to Abstract Meaning Representation

要約

シーンを視覚的に理解するためのシーン グラフの成功により、視覚的な入力 (画像など) を構造化表現に抽象化する利点が注目されるようになりました。エンティティ (人や物) は、それらの関係を指定するエッジによって接続されたノードです。
ただし、これらの表現を構築するには、シーン グラフまたはフレームとペアになった画像の形式で、コストのかかる手動の注釈が必要です。
これらの形式主義は、捉えることができる実体と関係の性質において制限されたままです。
この論文では、自然言語処理の分野で広く使用されている意味表現である抽象意味表現 (AMR) を活用して、これらの欠点に対処することを提案します。
空間的な関係を主に強調するシーン グラフと比較して、視覚的な AMR グラフは、視覚的な入力から推定される高レベルのセマンティック コンセプトに焦点を当て、より言語的に情報を提供します。
さらに、メタ AMR グラフを生成して、複数の画像記述に含まれる情報を 1 つの表現に統合することができます。
広範な実験と分析を通じて、既存のテキストから AMR へのパーサーを再利用して、画像を A​​MR に解析できることを実証します。
私たちの調査結果は、シーンの理解を改善するための重要な将来の研究の方向性を示しています。

要約(オリジナル)

The success of scene graphs for visual scene understanding has brought attention to the benefits of abstracting a visual input (e.g., image) into a structured representation, where entities (people and objects) are nodes connected by edges specifying their relations. Building these representations, however, requires expensive manual annotation in the form of images paired with their scene graphs or frames. These formalisms remain limited in the nature of entities and relations they can capture. In this paper, we propose to leverage a widely-used meaning representation in the field of natural language processing, the Abstract Meaning Representation (AMR), to address these shortcomings. Compared to scene graphs, which largely emphasize spatial relationships, our visual AMR graphs are more linguistically informed, with a focus on higher-level semantic concepts extrapolated from visual input. Moreover, they allow us to generate meta-AMR graphs to unify information contained in multiple image descriptions under one representation. Through extensive experimentation and analysis, we demonstrate that we can re-purpose an existing text-to-AMR parser to parse images into AMRs. Our findings point to important future research directions for improved scene understanding.

arxiv情報

著者 Mohamed Ashraf Abdelsalam,Zhan Shi,Federico Fancellu,Kalliopi Basioti,Dhaivat J. Bhatt,Vladimir Pavlovic,Afsaneh Fazly
発行日 2022-10-27 15:54:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク