Prospective Role of Foundation Models in Advancing Autonomous Vehicles

要約

人工知能の発展と深層学習の進歩に伴い、GPT、Sora などの大規模基盤モデル (FM) は、自然言語処理やコンピューター ビジョンを含む多くの分野で目覚ましい成果を上げています。
自動運転における FM の応用には大きな期待が寄せられています。
たとえば、シーンの理解と推論の強化に貢献できます。
豊富な言語データと視覚データで事前トレーニングすることで、FM は運転シーンのさまざまな要素を理解して解釈し、認知推論を提供して、運転の意思決定と計画のための言語と行動の指示を与えることができます。
さらに、FM は運転シナリオの理解に基づいてデータを拡張し、日常的な運転やデータ収集では遭遇する可能性が低い、ロングテール分布におけるまれな出来事の実現可能なシーンを提供できます。
この機能強化は、その後、自動運転システムの精度と信頼性の向上につながる可能性があります。
FM アプリケーションの可能性のもう 1 つの証拠は、物理法則と力学を理解する能力を示す DREAMER シリーズに代表されるワールド モデルにあります。
自己教師あり学習のパラダイムの下で大量のデータから学習するワールド モデルは、目に見えないがもっともらしい運転環境を生成し、道路利用者の行動の予測と運転戦略のオフライン トレーニングの強化を促進します。
この論文では、自動運転における FM のアプリケーションと将来の傾向を総合します。
FM の強力な機能を活用することで、当社は自動運転におけるロングテール配信に起因する潜在的な問題に取り組み、その結果、この領域における全体的な安全性を向上させることに努めています。

要約(オリジナル)

With the development of artificial intelligence and breakthroughs in deep learning, large-scale Foundation Models (FMs), such as GPT, Sora, etc., have achieved remarkable results in many fields including natural language processing and computer vision. The application of FMs in autonomous driving holds considerable promise. For example, they can contribute to enhancing scene understanding and reasoning. By pre-training on rich linguistic and visual data, FMs can understand and interpret various elements in a driving scene, and provide cognitive reasoning to give linguistic and action instructions for driving decisions and planning. Furthermore, FMs can augment data based on the understanding of driving scenarios to provide feasible scenes of those rare occurrences in the long tail distribution that are unlikely to be encountered during routine driving and data collection. The enhancement can subsequently lead to improvement in the accuracy and reliability of autonomous driving systems. Another testament to the potential of FMs’ applications lies in World Models, exemplified by the DREAMER series, which showcases the ability to comprehend physical laws and dynamics. Learning from massive data under the paradigm of self-supervised learning, World Model can generate unseen yet plausible driving environments, facilitating the enhancement in the prediction of road users’ behaviors and the off-line training of driving strategies. In this paper, we synthesize the applications and future trends of FMs in autonomous driving. By utilizing the powerful capabilities of FMs, we strive to tackle the potential issues stemming from the long-tail distribution in autonomous driving, consequently advancing overall safety in this domain.

arxiv情報

著者 Jianhua Wu,Bingzhao Gao,Jincheng Gao,Jianhao Yu,Hongqing Chu,Qiankun Yu,Xun Gong,Yi Chang,H. Eric Tseng,Hong Chen,Jie Chen
発行日 2024-05-17 10:47:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク