OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

要約

マルチモーダル大規模言語モデル (MLLM) の出現以来、特に自動運転 (AD) において、現実世界の幅広いアプリケーションに大きな影響を与えてきました。
複雑な視覚データを処理し、複雑な運転シナリオを推論する能力により、エンドツーエンドの AD システムにおける新しいパラダイムへの道が開かれました。
しかし、既存の微調整手法では広範な計算能力、大規模なデータセット、多額の資金などの相当なリソースが必要となるため、AD 向けのエンドツーエンド モデルの開発の進捗は遅れています。
推論コンピューティングの最近の進歩からインスピレーションを得て、MLLM に基づくオープンソースのエンドツーエンド フレームワークである OpenEMMA を提案します。
OpenEMMA は、思考連鎖推論プロセスを組み込むことにより、さまざまな MLLM を活用する際にベースラインと比較して大幅な改善を達成します。
さらに、OpenEMMA は、さまざまな困難な運転シナリオにわたって有効性、汎用性、堅牢性を実証し、自動運転へのより効率的かつ効果的なアプローチを提供します。
すべてのコードは https://github.com/taco-group/OpenEMMA でリリースされます。

要約(オリジナル)

Since the advent of Multimodal Large Language Models (MLLMs), they have made a significant impact across a wide range of real-world applications, particularly in Autonomous Driving (AD). Their ability to process complex visual data and reason about intricate driving scenarios has paved the way for a new paradigm in end-to-end AD systems. However, the progress of developing end-to-end models for AD has been slow, as existing fine-tuning methods demand substantial resources, including extensive computational power, large-scale datasets, and significant funding. Drawing inspiration from recent advancements in inference computing, we propose OpenEMMA, an open-source end-to-end framework based on MLLMs. By incorporating the Chain-of-Thought reasoning process, OpenEMMA achieves significant improvements compared to the baseline when leveraging a diverse range of MLLMs. Furthermore, OpenEMMA demonstrates effectiveness, generalizability, and robustness across a variety of challenging driving scenarios, offering a more efficient and effective approach to autonomous driving. We release all the codes in https://github.com/taco-group/OpenEMMA.

arxiv情報

著者 Shuo Xing,Chengyuan Qian,Yuping Wang,Hongyuan Hua,Kexin Tian,Yang Zhou,Zhengzhong Tu
発行日 2024-12-19 18:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク