要約
人間にとって、視覚信号を使用してオブジェクト間の関係を理解することは直感的です。
しかし、人工知能にとって、このタスクは依然として困難です。
研究者は、人間とオブジェクトの相互作用の検出や視覚的な関係の検出など、意味的な関係の検出を研究して大きな進歩を遂げました。
私たちは視覚的関係の研究をセマンティックから幾何学へと一歩進めます。
具体的には、相対オクルージョンと相対距離の関係を予測します。
ただし、単一の画像からこれらの関係を検出することは困難です。
タスク固有の領域に注意を集中させることは、これらの関係を正常に検出する上で重要な役割を果たします。
この作業では、(1) 注目を集めるためのインフラストラクチャとして、新しい 3 デコーダー アーキテクチャを提案します。
2) 一般化された交差ボックス予測タスクを使用して、オクルージョン固有の領域に焦点を当てるようにモデルを効果的に導きます。
3)私たちのモデルは、距離を意識した関係検出で新しい最先端のパフォーマンスを実現します。
具体的には、モデルは距離 F1 スコアを 33.8% から 38.6% に増加させ、オクルージョン F1 スコアを 34.4% から 41.2% に引き上げます。
私たちのコードは公開されています。
要約(オリジナル)
For humans, understanding the relationships between objects using visual signals is intuitive. For artificial intelligence, however, this task remains challenging. Researchers have made significant progress studying semantic relationship detection, such as human-object interaction detection and visual relationship detection. We take the study of visual relationships a step further from semantic to geometric. In specific, we predict relative occlusion and relative distance relationships. However, detecting these relationships from a single image is challenging. Enforcing focused attention to task-specific regions plays a critical role in successfully detecting these relationships. In this work, (1) we propose a novel three-decoder architecture as the infrastructure for focused attention; 2) we use the generalized intersection box prediction task to effectively guide our model to focus on occlusion-specific regions; 3) our model achieves a new state-of-the-art performance on distance-aware relationship detection. Specifically, our model increases the distance F1-score from 33.8% to 38.6% and boosts the occlusion F1-score from 34.4% to 41.2%. Our code is publicly available.
arxiv情報
著者 | Yang Li,Yucheng Tu,Xiaoxue Chen,Hao Zhao,Guyue Zhou |
発行日 | 2022-08-23 17:59:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google