要約
動的なシーンで複数の異種視覚タスクを実行することは、人間の認識能力の特徴です。
表現学習による画像およびビデオ認識の目覚ましい進歩にもかかわらず、現在の研究は依然として、タスクの単一、同種、または単純な組み合わせに特化したネットワークの設計に焦点を当てています。
その代わりに、多様な入出力構造を備えた自動運転における主要な画像およびビデオ認識タスクのための統一モデルの構築を検討します。
このような調査を可能にするために、私たちは新しい課題であるビデオ タスク デカスロン (VTD) を設計しました。これには、オブジェクトとピクセルの分類、セグメンテーション、位置特定、関連付けに及ぶ 10 個の代表的な画像およびビデオ タスクが含まれています。
VTD では、10 個のタスクすべてに対して単一の構造と単一の重みセットを使用する統合ネットワーク VTDNet を開発します。
VTDNet は同様のタスクをグループ化し、タスク相互作用ステージを採用してタスク グループ内およびタスク グループ間で情報を交換します。
すべてのフレームですべてのタスクにラベルを付けることの非現実性と、多くのタスクの共同トレーニングに伴うパフォーマンスの低下を考慮して、すべてのタスクで VTDNet を正常にトレーニングし、問題を軽減するためのカリキュラム トレーニング、疑似ラベル付け、および微調整 (CPF) スキームを設計します。
パフォーマンスの損失。
CPF を備えた VTDNet は、全体の計算量がわずか 20% であるにもかかわらず、ほとんどのタスクでシングルタスクの同等のパフォーマンスを大幅に上回ります。
VTD は、自動運転における知覚タスクの統合を探求するための有望な新しい方向性です。
要約(オリジナル)
Performing multiple heterogeneous visual tasks in dynamic scenes is a hallmark of human perception capability. Despite remarkable progress in image and video recognition via representation learning, current research still focuses on designing specialized networks for singular, homogeneous, or simple combination of tasks. We instead explore the construction of a unified model for major image and video recognition tasks in autonomous driving with diverse input and output structures. To enable such an investigation, we design a new challenge, Video Task Decathlon (VTD), which includes ten representative image and video tasks spanning classification, segmentation, localization, and association of objects and pixels. On VTD, we develop our unified network, VTDNet, that uses a single structure and a single set of weights for all ten tasks. VTDNet groups similar tasks and employs task interaction stages to exchange information within and between task groups. Given the impracticality of labeling all tasks on all frames, and the performance degradation associated with joint training of many tasks, we design a Curriculum training, Pseudo-labeling, and Fine-tuning (CPF) scheme to successfully train VTDNet on all tasks and mitigate performance loss. Armed with CPF, VTDNet significantly outperforms its single-task counterparts on most tasks with only 20% overall computations. VTD is a promising new direction for exploring the unification of perception tasks in autonomous driving.
arxiv情報
著者 | Thomas E. Huang,Yifan Liu,Luc Van Gool,Fisher Yu |
発行日 | 2023-09-08 16:33:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google