Unlock the Power of Unlabeled Data in Language Driving Model

要約

自律運転の最近のビジョンベースの大手言語モデル〜(Visionllms)は、急速な進歩を見てきました。
ただし、このような昇進は、コストがかかり、労働集約的な大規模な高品質の注釈付きデータに非常に依存しています。
この問題に対処するために、半監督の学習方法で言語駆動モデルを改善するために、豊富でありながら非標識データの価値を解き放つことを提案します。
具体的には、最初に一連のテンプレートベースのプロンプトを導入してシーン情報を抽出し、限られたラベル付きデータで訓練されたモデルに基づいて、無効なデータの擬似回答を作成する質問を生成します。
次に、これらの擬似解決の品質を改善するための自己整合性改良方法を提案します。これらは後でさらなるトレーニングに使用されます。
事前に訓練されたVisionllm(例:InternVL)を利用することにより、以前の最先端の方法を上回るシーンを運転するための強力な言語駆動モデル(LDM)を構築します。
Drivelmベンチマークでの広範な実験は、私たちのアプローチがわずか5%のラベルデータでうまく機能し、完全なデータセットでトレーニングされたモデルに対して競争力のあるパフォーマンスを達成することを示しています。
特に、LDMは、ラベル付きデータが限られている44.85%のパフォーマンスを達成し、非標識データを使用すると54.27%に増加し、完全なデータセットでトレーニングされたモデルはDrivelmベンチマークで60.68%に達します。

要約(オリジナル)

Recent Vision-based Large Language Models~(VisionLLMs) for autonomous driving have seen rapid advancements. However, such promotion is extremely dependent on large-scale high-quality annotated data, which is costly and labor-intensive. To address this issue, we propose unlocking the value of abundant yet unlabeled data to improve the language-driving model in a semi-supervised learning manner. Specifically, we first introduce a series of template-based prompts to extract scene information, generating questions that create pseudo-answers for the unlabeled data based on a model trained with limited labeled data. Next, we propose a Self-Consistency Refinement method to improve the quality of these pseudo-annotations, which are later used for further training. By utilizing a pre-trained VisionLLM (e.g., InternVL), we build a strong Language Driving Model (LDM) for driving scene question-answering, outperforming previous state-of-the-art methods. Extensive experiments on the DriveLM benchmark show that our approach performs well with just 5% labeled data, achieving competitive performance against models trained with full datasets. In particular, our LDM achieves 44.85% performance with limited labeled data, increasing to 54.27% when using unlabeled data, while models trained with full datasets reach 60.68% on the DriveLM benchmark.

arxiv情報

著者 Chaoqun Wang,Jie Yang,Xiaobin Hong,Ruimao Zhang
発行日 2025-03-13 17:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク