要約
自動運転タスクにおいて、シーンの理解は、周囲の交通参加者の将来の行動を予測するための最初のステップです。
しかし、特定のシーンをどのように表現し、その特徴を抽出するかはまだ未解決の研究課題です。
この研究では、交通シーンの新しいテキストベースの表現を提案し、それを事前に訓練された言語エンコーダーで処理します。
まず、テキストベースの表現と古典的なラスター化された画像表現を組み合わせることで、記述的なシーンの埋め込みが実現されることを示します。
次に、nuScenes データセットで予測をベンチマークし、ベースラインと比較して大幅な改善を示しました。
第三に、アブレーション研究で、テキストとラスター化された画像の共同エンコーダーが個別のエンコーダーよりも優れていることを示し、両方の表現が補完的な長所を持っていることを確認しました。
要約(オリジナル)
In autonomous driving tasks, scene understanding is the first step towards predicting the future behavior of the surrounding traffic participants. Yet, how to represent a given scene and extract its features are still open research questions. In this study, we propose a novel text-based representation of traffic scenes and process it with a pre-trained language encoder. First, we show that text-based representations, combined with classical rasterized image representations, lead to descriptive scene embeddings. Second, we benchmark our predictions on the nuScenes dataset and show significant improvements compared to baselines. Third, we show in an ablation study that a joint encoder of text and rasterized images outperforms the individual encoders confirming that both representations have their complementary strengths.
arxiv情報
著者 | Ali Keysan,Andreas Look,Eitan Kosman,Gonca Gürsun,Jörg Wagner,Yao Yu,Barbara Rakitsch |
発行日 | 2023-09-11 07:37:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google