Multi-Task Consistency for Active Learning

要約

視覚タスク用の学習ベースのソリューションでは、パフォーマンスと信頼性を確保するために大量のラベル付きトレーニング データが必要です。
単一タスクのビジョンベースの設定では、不一致ベースのアクティブラーニングが、アノテーション用の有益なサンプルを選択するのに効果的であることが証明されています。
しかし、マルチタスク ネットワークにおける複数のタスク間の不一致を利用した研究は不足しています。
このギャップに対処するために、物体検出とセマンティック セグメンテーションという 2 つの視覚タスクを組み合わせた新しいマルチタスク アクティブ ラーニング戦略を提案します。
私たちのアプローチでは、それらの間の不一致を利用して、両方のタスクにわたって有益なサンプルを特定します。
タスクがどのように結合されるかを指定する 3 つの制約を提案し、バウンディング ボックスによって検出されたオブジェクトに属するピクセルを決定し、後で制約を不一致スコアとして定量化する方法を導入します。
アプローチの有効性を評価するために、マルチタスク アクティブ ラーニングの複数のベースラインを確立し、両方のタスクのパフォーマンスに対処するマルチタスク アクティブ ラーニングの比較に合わせて調整された新しい指標である平均検出セグメンテーション品質 (mDSQ) を導入します。
私たちは nuImages と A9 データセットに対して広範な実験を実施し、私たちのアプローチが既存の最先端の手法よりも nuImages で最大 3.4% mDSQ 優れていることを実証しました。
私たちのアプローチは、利用可能なデータの 67% のみを使用して、完全にトレーニングされたパフォーマンスの 95% を達成します。これは、ランダム選択と比較してラベルが 20% 少なく、最先端の選択戦略と比較してラベルが 5% 少ないことに相当します。
私たちのコードはレビュープロセス後に公開されます。

要約(オリジナル)

Learning-based solutions for vision tasks require a large amount of labeled training data to ensure their performance and reliability. In single-task vision-based settings, inconsistency-based active learning has proven to be effective in selecting informative samples for annotation. However, there is a lack of research exploiting the inconsistency between multiple tasks in multi-task networks. To address this gap, we propose a novel multi-task active learning strategy for two coupled vision tasks: object detection and semantic segmentation. Our approach leverages the inconsistency between them to identify informative samples across both tasks. We propose three constraints that specify how the tasks are coupled and introduce a method for determining the pixels belonging to the object detected by a bounding box, to later quantify the constraints as inconsistency scores. To evaluate the effectiveness of our approach, we establish multiple baselines for multi-task active learning and introduce a new metric, mean Detection Segmentation Quality (mDSQ), tailored for the multi-task active learning comparison that addresses the performance of both tasks. We conduct extensive experiments on the nuImages and A9 datasets, demonstrating that our approach outperforms existing state-of-the-art methods by up to 3.4% mDSQ on nuImages. Our approach achieves 95% of the fully-trained performance using only 67% of the available data, corresponding to 20% fewer labels compared to random selection and 5% fewer labels compared to state-of-the-art selection strategy. Our code will be made publicly available after the review process.

arxiv情報

著者 Aral Hekimoglu,Philipp Friedrich,Walter Zimmer,Michael Schmidt,Alvaro Marcos-Ramiro,Alois C. Knoll
発行日 2023-06-21 17:34:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク