要約
フレーズ検出には、フレーズが画像に関連しているかどうかを識別し、該当する場合はローカライズする方法が必要です。
より差別的なフレーズ検出モデルをトレーニングする際の重要な課題は、ネガのサンプリングです。
ただし、以前の研究からのサンプリング手法は、ネガティブ サンプルのより広範な分布を無視して、ハードで、しばしばノイズの多いネガに主に焦点を当てています。
この問題に対処するために、CFCD-Net を導入します。これは、2 つの新しい方法でフレーズを区別するフレーズ検出器です。
まず、概念と呼ばれる意味的に類似した単語 (例: {犬、猫、馬、…} と車、トラック、…}) で構成されるグループを生成し、CFCD-Net をトレーニングして、
関心領域とその無関係な概念。
第 2 に、きめの細かい相互排他的な単語 (色など) を含むフレーズの場合、新しいきめの細かいモジュール (FGM) を使用して、各地域に適用可能なフレーズを 1 つだけ選択するようモデルに強制します。
Flickr30K Entities と RefCOCO+ データセットでアプローチを評価し、最先端の mAP を 1.5 ~ 2 ポイント改善します。
きめの細かい推論モジュールの影響を受けるフレーズのみを考慮すると、両方のデータセットで 3 ~ 4 ポイント改善されます。
要約(オリジナル)
Phrase detection requires methods to identify if a phrase is relevant to an image and localize it if applicable. A key challenge in training more discriminative phrase detection models is sampling negatives. However, sampling techniques from prior work focus primarily on hard, often noisy, negatives disregarding the broader distribution of negative samples. To address this problem, we introduce CFCD-Net, a phrase detector that differentiates between phrases through two novels methods. First, we generate groups that consist of semantically similar words we call concepts (eg {dog, cat, horse, …} vs. car, truck, …}), and then train our CFCD-Net to discriminate between a region of interest and its unrelated concepts. Second, for phrases containing fine-grained mutually-exclusive words (eg colors), we force the model into selecting only one applicable phrase for each region using our novel fine grained module (FGM). We evaluate our approach on the Flickr30K Entities and RefCOCO+ datasets, where we improve mAP over the state-of-the-art by 1.5-2 points. When considering only the phrases affected by our fine-grained reasoning module, we improve by 3-4 points on both datasets.
arxiv情報
著者 | Maan Qraitem,Bryan A. Plummer |
発行日 | 2022-09-30 17:20:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google