From Coarse to Fine-grained Concept based Discrimination for Phrase Detection


フレーズ検出には、フレーズが画像に関連しているかどうかを識別し、該当する場合はそれを局所化する方法が必要である。より識別性の高いフレーズ検出モデルを学習するための重要な課題は、ネガをサンプリングすることである。しかし、先行研究によるサンプリング技術は、主に硬い、しばしばノイズの多い陰性に焦点を当て、より広い陰性サンプルの分布を無視する。この問題を解決するために、我々はCFCD-Netというフレーズ検出器を導入し、2つの新しい手法によってフレーズを区別する。まず、概念と呼ばれる意味的に類似した単語からなるグループを生成し(例:{犬、猫、馬、…} vs. 車、トラック、…})、CFCD-Netに注目領域とそれに無関係な概念を識別させるように学習させる。第二に、細粒度の相互排他的な単語(例えば色)を含むフレーズに対して、我々の新しい細粒度モジュール(FGM)を用いて、各領域に適用可能なフレーズを一つのみ選択するようモデルを強制する。Flickr30K EntitiesとRefCOCO+データセットで本手法を評価したところ、mAPが1.5-2ポイント改善された。また、細粒度推論モジュールの影響を受けるフレーズのみを考慮した場合、両データセットで3〜4ポイントの改善が見られた。


Phrase detection requires methods to identify if a phrase is relevant to an image and localize it if applicable. A key challenge in training more discriminative phrase detection models is sampling negatives. However, sampling techniques from prior work focus primarily on hard, often noisy, negatives disregarding the broader distribution of negative samples. To address this problem, we introduce CFCD-Net, a phrase detector that differentiates between phrases through two novels methods. First, we generate groups that consist of semantically similar words we call concepts (eg {dog, cat, horse, …} vs. car, truck, …}), and then train our CFCD-Net to discriminate between a region of interest and its unrelated concepts. Second, for phrases containing fine-grained mutually-exclusive words (eg colors), we force the model into selecting only one applicable phrase for each region using our novel fine grained module (FGM). We evaluate our approach on the Flickr30K Entities and RefCOCO+ datasets, where we improve mAP over the state-of-the-art by 1.5-2 points. When considering only the phrases affected by our fine-grained reasoning module, we improve by 3-4 points on both datasets.


著者 Maan Qraitem,Bryan A. Plummer
発行日 2022-10-03 14:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク