One for All: One-stage Referring Expression Comprehension with Dynamic Reasoning

要約

Reference Expression Comprehension (REC) は、自然言語表現によって参照される対象オブジェクトをモデルが検出することを必要とする、視覚推論における最も重要なタスクの 1 つです。
提案されたパイプラインの中で、1 段階の参照式理解 (OSREC) は、領域の提案段階と選択段階を統合するため、支配的な傾向になっています。
多くの最先端の OSREC モデルは、マルチホップ推論戦略を採用しています。これは、意味関係を分析するためにマルチホップ推論を必要とする単一の表現でオブジェクトのシーケンスが頻繁に言及されるためです。
ただし、これらのモデルの未解決の問題の 1 つは、式のさまざまな複雑さを無視して、推論の前に推論ステップの数を事前に定義して修正する必要があることです。
この論文では、推論の状態と表現の複雑さに基づいて推論ステップを動的に調整できる動的多段階推論ネットワークを提案します。
具体的には、推論状態を記憶および処理するための Transformer モジュールと、推論ステップを動的に推測するための強化学習戦略を採用しています。
この作業は、短い式を含む RefCOCO (+, g) から、長くて複雑な合成式を含むデータセットである Ref-Reasoning まで、いくつかの REC データセットで最先端のパフォーマンスまたは大幅な改善を実現します。

要約(オリジナル)

Referring Expression Comprehension (REC) is one of the most important tasks in visual reasoning that requires a model to detect the target object referred by a natural language expression. Among the proposed pipelines, the one-stage Referring Expression Comprehension (OSREC) has become the dominant trend since it merges the region proposal and selection stages. Many state-of-the-art OSREC models adopt a multi-hop reasoning strategy because a sequence of objects is frequently mentioned in a single expression which needs multi-hop reasoning to analyze the semantic relation. However, one unsolved issue of these models is that the number of reasoning steps needs to be pre-defined and fixed before inference, ignoring the varying complexity of expressions. In this paper, we propose a Dynamic Multi-step Reasoning Network, which allows the reasoning steps to be dynamically adjusted based on the reasoning state and expression complexity. Specifically, we adopt a Transformer module to memorize & process the reasoning state and a Reinforcement Learning strategy to dynamically infer the reasoning steps. The work achieves the state-of-the-art performance or significant improvements on several REC datasets, ranging from RefCOCO (+, g) with short expressions, to Ref-Reasoning, a dataset with long and complex compositional expressions.

arxiv情報

著者 Zhipeng Zhang,Zhimin Wei,Zhongzhen Huang,Rui Niu,Peng Wang
発行日 2022-10-27 11:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク