要約
この論文では、従来のシステムでは意図の理解や緊急時の正確な意思決定が困難になることが多い鉱山環境での自動運転への GPT-4V(ision) 大規模視覚言語モデルの適用について検討します。
GPT-4V は、視覚的な質問応答と複雑なシーンの理解のための機能を導入し、これらの特殊な設定での課題に対処します。私たちの評価は、シーンの理解、推論、および運転機能の熟練度に焦点を当てており、次のような要素を認識および解釈する能力に関する特定のテストが行われます。
歩行者、さまざまな車両、交通機器。
GPT-4V は確かな理解力と意思決定スキルを示しましたが、特定の車両タイプを正確に識別し、動的な相互作用を管理するのが困難でした。
これらの課題にもかかわらず、その効果的なナビゲーションと戦略的意思決定は、鉱山環境の複雑な条件における自動運転の信頼できるエージェントとしての可能性を実証し、産業環境におけるその適応性と運用可能性を強調しています。
要約(オリジナル)
This paper explores the application of the GPT-4V(ision) large visual language model to autonomous driving in mining environments, where traditional systems often falter in understanding intentions and making accurate decisions during emergencies. GPT-4V introduces capabilities for visual question answering and complex scene comprehension, addressing challenges in these specialized settings.Our evaluation focuses on its proficiency in scene understanding, reasoning, and driving functions, with specific tests on its ability to recognize and interpret elements such as pedestrians, various vehicles, and traffic devices. While GPT-4V showed robust comprehension and decision-making skills, it faced difficulties in accurately identifying specific vehicle types and managing dynamic interactions. Despite these challenges, its effective navigation and strategic decision-making demonstrate its potential as a reliable agent for autonomous driving in the complex conditions of mining environments, highlighting its adaptability and operational viability in industrial settings.
arxiv情報
著者 | Zixuan Li |
発行日 | 2024-06-24 17:26:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google