要約
シーンの理解は、現実世界で動作する自律システムにとって重要です。
シングル タスク ビジョン ネットワークは、シーンの一部の側面に基づいてのみ情報を抽出します。
一方、マルチタスク学習(MTL)では、これらの単一のタスクを一緒に学習することで、タスクが情報を共有し、より包括的な理解を得る機会を提供します。
この目的のために、オブジェクト検出、セマンティック セグメンテーション、インスタンス セグメンテーション、単眼深度推定、単眼インスタンス深度予測などの重要なビジョン タスクを正確かつ効率的に推論する統合シーン理解ネットワークである UniNet を開発します。
これらのタスクは、異なるセマンティックおよびジオメトリ情報を参照するため、相互に補完または競合する可能性があります。
したがって、タスク間の関係を理解することで、補完的な情報共有を可能にする有用な手がかりが得られます。
敵対的攻撃がニューラル ネットワークで学習したバイアスとタスクの相互作用を悪用できるという概念に基づいて、敵対的攻撃のレンズを通して UniNet のタスク関係を評価します。
非標的型攻撃と標的型攻撃を使用した Cityscapes データセットでの広範な実験により、セマンティック タスクは相互に強く相互作用し、同じことが幾何学的タスクにも当てはまることが明らかになりました。
さらに、セマンティック タスクとジオメトリック タスクの関係は非対称であり、より高いレベルの表現に進むにつれて相互作用が弱くなることを示します。
要約(オリジナル)
Scene understanding is crucial for autonomous systems which intend to operate in the real world. Single task vision networks extract information only based on some aspects of the scene. In multi-task learning (MTL), on the other hand, these single tasks are jointly learned, thereby providing an opportunity for tasks to share information and obtain a more comprehensive understanding. To this end, we develop UniNet, a unified scene understanding network that accurately and efficiently infers vital vision tasks including object detection, semantic segmentation, instance segmentation, monocular depth estimation, and monocular instance depth prediction. As these tasks look at different semantic and geometric information, they can either complement or conflict with each other. Therefore, understanding inter-task relationships can provide useful cues to enable complementary information sharing. We evaluate the task relationships in UniNet through the lens of adversarial attacks based on the notion that they can exploit learned biases and task interactions in the neural network. Extensive experiments on the Cityscapes dataset, using untargeted and targeted attacks reveal that semantic tasks strongly interact amongst themselves, and the same holds for geometric tasks. Additionally, we show that the relationship between semantic and geometric tasks is asymmetric and their interaction becomes weaker as we move towards higher-level representations.
arxiv情報
著者 | Naresh Kumar Gurulingan,Elahe Arani,Bahram Zonooz |
発行日 | 2022-08-12 15:16:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google