要約
このレポートは、2024 ECCV ROAD++ Challenge のトラック 3 に参加するための私たちのチームの技術ソリューションを紹介します。
トラック 3 のタスクは原子活動認識で、ビデオ コンテンツに基づいて道路シーン内の 64 種類の原子活動を識別することを目的としています。
私たちのアプローチは主に、単一のオブジェクトとオブジェクトのグループを区別する小さなオブジェクトの課題、およびこのタスクにおけるモデルのオーバーフィッティングに対処します。
まず、異なるオブジェクトカテゴリを分離するだけでなく、単一オブジェクトとオブジェクトグループの認識タスクを分離することで、認識精度を向上させるマルチブランチアクティビティ認識フレームワークを構築します。
その後、複数のフレーム サンプリング シーケンス、異なるフレーム サンプリング シーケンスの長さ、複数のトレーニング エポック、および異なるバックボーン ネットワークの統合を含む、さまざまなモデル アンサンブル戦略を開発します。
さらに、ビデオフレームと道路トポロジーを反転することでサンプル空間を大幅に拡張し、モデルの過剰適合を効果的に軽減する原子活動認識データ拡張手法を提案します。
当社のメソッドは、ROAD++ Challenge 2024 のトラック 3 のテスト セットで 1 位にランクされ、69% の mAP を達成しました。
要約(オリジナル)
This report presents our team’s technical solution for participating in Track 3 of the 2024 ECCV ROAD++ Challenge. The task of Track 3 is atomic activity recognition, which aims to identify 64 types of atomic activities in road scenes based on video content. Our approach primarily addresses the challenges of small objects, discriminating between single object and a group of objects, as well as model overfitting in this task. Firstly, we construct a multi-branch activity recognition framework that not only separates different object categories but also the tasks of single object and object group recognition, thereby enhancing recognition accuracy. Subsequently, we develop various model ensembling strategies, including integrations of multiple frame sampling sequences, different frame sampling sequence lengths, multiple training epochs, and different backbone networks. Furthermore, we propose an atomic activity recognition data augmentation method, which greatly expands the sample space by flipping video frames and road topology, effectively mitigating model overfitting. Our methods rank first in the test set of Track 3 for the ROAD++ Challenge 2024, and achieve 69% mAP.
arxiv情報
著者 | Ruyang Li,Tengfei Zhang,Heng Zhang,Tiejun Liu,Yanwei Wang,Xuelei Li |
発行日 | 2024-10-30 15:06:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google