Dynamic loss balancing and sequential enhancement for road-safety assessment and traffic scene classification

要約

道路安全検査は、道路インフラに起因する交通事故の死亡者数を減らすために不可欠な手段である。最近の研究では、道路安全性評価を、慎重に選択されたリスクファクター(道路安全性属性とも呼ばれる)の観点から定式化している。現在、これらの属性は、道路セグメントごとに、地理参照された単眼ビデオに手動でアノテーションされている。我々は、2段階のニューラルアーキテクチャを用いて認識を自動化することにより、面倒な人力作業への依存を減らすことを提案する。第1段階では、局所的な時空間コンテキストを観測することで、40以上の交通安全属性を予測する。また、街角のセマンティックセグメンテーションの事前学習により、効率的な畳み込みパイプラインを活用しています。第2段階では、より大きな時間窓を逐次的に統合することで予測を強化する。この設計では、軽量な双方向LSTMアーキテクチャの属性ごとのインスタンスを利用する。両ステージとも、想起に基づく動的損失重み付けのマルチタスク版を取り入れることで、極端なクラス不均衡を緩和している。我々はiRAP-BHデータセットで実験を行った。このデータセットはボスニア・ヘルツェゴビナの2,300kmの公道沿いの地理参照されたビデオを完全にラベル付けしたものである。また、文献にある2つの道路シーン分類データセットで、関連する仕事と比較することにより、我々のアプローチを検証する。ホンダシーンとFM3mである。実験的な評価により、3つのデータセット全てにおいて我々の貢献が確認された。

要約(オリジナル)

Road-safety inspection is an indispensable instrument for reducing road-accident fatalities contributed to road infrastructure. Recent work formalizes road-safety assessment in terms of carefully selected risk factors that are also known as road-safety attributes. In current practice, these attributes are manually annotated in geo-referenced monocular video for each road segment. We propose to reduce dependency on tedious human labor by automating recognition with a two-stage neural architecture. The first stage predicts more than forty road-safety attributes by observing a local spatio-temporal context. Our design leverages an efficient convolutional pipeline, which benefits from pre-training on semantic segmentation of street scenes. The second stage enhances predictions through sequential integration across a larger temporal window. Our design leverages per-attribute instances of a lightweight bidirectional LSTM architecture. Both stages alleviate extreme class imbalance by incorporating a multi-task variant of recall-based dynamic loss weighting. We perform experiments on the iRAP-BH dataset, which involves fully labeled geo-referenced video along 2,300 km of public roads in Bosnia and Herzegovina. We also validate our approach by comparing it with the related work on two road-scene classification datasets from the literature: Honda Scenes and FM3m. Experimental evaluation confirms the value of our contributions on all three datasets.

arxiv情報

著者 Marin Kačan,Marko Ševrović,Siniša Šegvić
発行日 2022-11-08 11:10:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク