要約
シーン コンテキストは、目に見えるオブジェクトの人間の認識を容易にすることがよく知られています。
この論文では、画像内のオブジェクトの参照表現生成 (REG) におけるコンテキストの役割を調査します。既存の研究では、ジェネレーターに圧力をかけるディストラクタコンテキストに焦点を当てていることがよくあります。
我々は、REG のシーン コンテキストについて新しい視点をとり、コンテキスト情報は REG モデルの回復力を高め、オブジェクト記述、特にオブジェクト タイプの生成を容易にするリソースとして考えることができると仮説を立てます。
私たちは、さまざまな程度のノイズで人工的に隠されたターゲット表現を使用して、Transformer ベースの REG モデルをトレーニングおよびテストします。
モデルのビジュアルコンテキストのプロパティがモデルの処理とパフォーマンスにどのような影響を与えるかを評価します。
私たちの結果は、単純なシーンコンテキストであってもモデルが摂動に対して驚くほど回復力があり、ターゲットに関する視覚情報が完全に欠落している場合でも参照対象のタイプを識別できることを示しています。
要約(オリジナル)
Scene context is well known to facilitate humans’ perception of visible objects. In this paper, we investigate the role of context in Referring Expression Generation (REG) for objects in images, where existing research has often focused on distractor contexts that exert pressure on the generator. We take a new perspective on scene context in REG and hypothesize that contextual information can be conceived of as a resource that makes REG models more resilient and facilitates the generation of object descriptions, and object types in particular. We train and test Transformer-based REG models with target representations that have been artificially obscured with noise to varying degrees. We evaluate how properties of the models’ visual context affect their processing and performance. Our results show that even simple scene contexts make models surprisingly resilient to perturbations, to the extent that they can identify referent types even when visual information about the target is completely missing.
arxiv情報
著者 | Simeon Junker,Sina Zarrieß |
発行日 | 2024-04-18 16:10:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google