TranViT: An Integrated Vision Transformer Framework for Discrete Transit Travel Time Range Prediction

要約

交通機関のユーザーに信頼できるスケジュールと信頼できるリアルタイム情報を提供するには、正確な移動時間の見積もりが最も重要です。
このホワイト ペーパーでは、交通機関と沿道の画像データの取得、ラベリング、モデル トレーニングのための新しいエンド ツー エンドのフレームワークを提案し、評価して、関心のあるセグメントでの交通機関の移動時間を予測します。
General Transit Feed Specification (GTFS) リアルタイム データは、マサチューセッツ州ケンブリッジのマサチューセッツ アベニューのセグメントを監視する路側カメラ ユニットのアクティベーション メカニズムとして使用されます。
Automated Vehicle Location (AVL) データから取得された監視対象セグメント全体の観測された移動時間パーセンタイルに基づいて、取得した画像のグラウンド トゥルース ラベルが生成されます。
次に、生成されたラベル付き画像データセットを使用して、ビジョン トランスフォーマー (ViT) モデルをトレーニングおよび評価し、個別の移動時間範囲 (バンド) を予測します。
この探索的研究の結果は、ViT モデルが画像の特徴とコンテンツを学習できることを示しています。これは、80% ~ 85% の範囲の平均検証精度で、予想される移動時間の範囲を推測するのに最も役立ちます。
また、この個別の移動時間帯の予測を利用して、継続的な移動時間の推定を改善する方法も示します。
この調査で提示されたワークフローと結果は、従来の交通データ ソースと沿道の画像を統合して交通移動所要時間の推定を改善するための、エンドツーエンドでスケーラブルで自動化された非常に効率的なアプローチを提供します。
この作業は、コンピューター ビジョン ソースからのリアルタイム情報を組み込むことの価値も示しています。これはますますアクセスしやすくなり、運行と乗客のリアルタイム情報を改善するために大きな影響を与える可能性があります。

要約(オリジナル)

Accurate travel time estimation is paramount for providing transit users with reliable schedules and dependable real-time information. This paper proposes and evaluates a novel end-to-end framework for transit and roadside image data acquisition, labeling, and model training to predict transit travel times across a segment of interest. General Transit Feed Specification (GTFS) real-time data is used as an activation mechanism for a roadside camera unit monitoring a segment of Massachusetts Avenue in Cambridge, MA. Ground truth labels are generated for the acquired images based on the observed travel time percentiles across the monitored segment obtained from Automated Vehicle Location (AVL) data. The generated labeled image dataset is then used to train and evaluate a Vision Transformer (ViT) model to predict a discrete transit travel time range (band). The results of this exploratory study illustrate that the ViT model is able to learn image features and contents that best help it deduce the expected travel time range with an average validation accuracy ranging between 80%-85%. We also demonstrate how this discrete travel time band prediction can subsequently be utilized to improve continuous transit travel time estimation. The workflow and results presented in this study provide an end-to-end, scalable, automated, and highly efficient approach for integrating traditional transit data sources and roadside imagery to improve the estimation of transit travel duration. This work also demonstrates the value of incorporating real-time information from computer-vision sources, which are becoming increasingly accessible and can have major implications for improving operations and passenger real-time information.

arxiv情報

著者 Awad Abdelhalim,Jinhua Zhao
発行日 2022-11-25 18:19:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク