Computer Vision for Transit Travel Time Prediction: An End-to-End Framework Using Roadside Urban Imagery

要約

交通機関のユーザーに信頼できるスケジュールと信頼できるリアルタイム情報を提供するには、正確な移動時間の見積もりが最も重要です。
この論文は、直接交通機関の移動時間の予測に沿道の都市画像を利用した最初の論文です。
従来の交通データ ソースを路側カメラと統合するエンド ツー エンドのフレームワークを提案し、評価して、道路脇の画像データの自動取得、ラベリング、モデル トレーニングを行い、関心のある区間の交通移動時間を予測します。
最初に、関心のあるセグメントを監視する路側カメラ ユニットの効率的なアクティベーション メカニズムとして GTFS リアルタイム データを利用する方法を示します。
第 2 に、AVL データを利用して、画像取得時にカメラで監視されたセグメント全体で観察された通過移動時間パーセンタイルに基づいて、取得した画像のグラウンド トゥルース ラベルを生成します。
最後に、生成されたラベル付き画像データセットを使用して、ビジョン トランスフォーマー (ViT) モデルをトレーニングし、徹底的に評価して、個別の移動時間範囲 (バンド) を予測します。
結果は、ViT モデルが画像の特徴とコンテンツを学習できることを示しています。これは、80% ~ 85% の範囲の平均検証精度で、予想される移動時間の範囲を推測するのに最も役立ちます。
ViT モデルの予測の解釈可能性を評価し、この個別の移動時間帯の予測がその後の連続移動時間の推定をどのように改善できるかを示します。
この調査で提示されたワークフローと結果は、従来の交通データ ソースと沿道の画像を統合して交通移動所要時間の推定を改善するための、エンドツーエンドでスケーラブルで自動化された非常に効率的なアプローチを提供します。
この作業は、コンピューター ビジョン ソースからのリアルタイム情報を組み込むことの価値も示しています。これはますますアクセスしやすくなり、運行と乗客のリアルタイム情報を改善するために大きな影響を与える可能性があります。

要約(オリジナル)

Accurate travel time estimation is paramount for providing transit users with reliable schedules and dependable real-time information. This paper is the first to utilize roadside urban imagery for direct transit travel time prediction. We propose and evaluate an end-to-end framework integrating traditional transit data sources with a roadside camera for automated roadside image data acquisition, labeling, and model training to predict transit travel times across a segment of interest. First, we show how the GTFS real-time data can be utilized as an efficient activation mechanism for a roadside camera unit monitoring a segment of interest. Second, AVL data is utilized to generate ground truth labels for the acquired images based on the observed transit travel time percentiles across the camera-monitored segment during the time of image acquisition. Finally, the generated labeled image dataset is used to train and thoroughly evaluate a Vision Transformer (ViT) model to predict a discrete transit travel time range (band). The results illustrate that the ViT model is able to learn image features and contents that best help it deduce the expected travel time range with an average validation accuracy ranging between 80%-85%. We assess the interpretability of the ViT model’s predictions and showcase how this discrete travel time band prediction can subsequently improve continuous transit travel time estimation. The workflow and results presented in this study provide an end-to-end, scalable, automated, and highly efficient approach for integrating traditional transit data sources and roadside imagery to improve the estimation of transit travel duration. This work also demonstrates the value of incorporating real-time information from computer-vision sources, which are becoming increasingly accessible and can have major implications for improving operations and passenger real-time information.

arxiv情報

著者 Awad Abdelhalim,Jinhua Zhao
発行日 2022-12-13 18:07:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク