Open-TransMind: A New Baseline and Benchmark for 1st Foundation Model Challenge of Intelligent Transportation

要約

近年のコンピューティング能力と深層学習アルゴリズムの継続的な向上により、基礎モデルの人気が高まっています。
このテクノロジーは、その強力な機能と優れたパフォーマンスにより、ますます多くの業界で採用および適用されています。
インテリジェント輸送業界では、人工知能は次のような典型的な課題に直面しています。ショット数が少ない、一般化が不十分、マルチモーダル技術が欠如している。
基礎モデル テクノロジーにより、前述の問題を大幅に軽減できます。
これらに対処するために、交通シナリオにおける基礎モデル技術の人気を高め、インテリジェント交通産業の急速な発展を促進することを目的として、第 1 回基礎モデル チャレンジを設計しました。
この課題は、オールインワン画像検索とクロスモーダル画像検索の 2 つのトラックに分かれています。
さらに、Open-TransMind と呼ばれる 2 つのトラックの新しいベースラインとベンチマークを提供します。
私たちの知識によれば、Open-TransMind は、マルチタスクおよびマルチモーダル機能を備えた初のオープンソース交通基盤モデルです。
同時に、Open-TransMind は、トラフィック シナリオの検出、分類、およびセグメンテーション データセットに関して最先端のパフォーマンスを達成できます。
ソース コードは https://github.com/Traffic-X/Open-TransMind で入手できます。

要約(オリジナル)

With the continuous improvement of computing power and deep learning algorithms in recent years, the foundation model has grown in popularity. Because of its powerful capabilities and excellent performance, this technology is being adopted and applied by an increasing number of industries. In the intelligent transportation industry, artificial intelligence faces the following typical challenges: few shots, poor generalization, and a lack of multi-modal techniques. Foundation model technology can significantly alleviate the aforementioned issues. To address these, we designed the 1st Foundation Model Challenge, with the goal of increasing the popularity of foundation model technology in traffic scenarios and promoting the rapid development of the intelligent transportation industry. The challenge is divided into two tracks: all-in-one and cross-modal image retrieval. Furthermore, we provide a new baseline and benchmark for the two tracks, called Open-TransMind. According to our knowledge, Open-TransMind is the first open-source transportation foundation model with multi-task and multi-modal capabilities. Simultaneously, Open-TransMind can achieve state-of-the-art performance on detection, classification, and segmentation datasets of traffic scenarios. Our source code is available at https://github.com/Traffic-X/Open-TransMind.

arxiv情報

著者 Yifeng Shi,Feng Lv,Xinliang Wang,Chunlong Xia,Shaojie Li,Shujie Yang,Teng Xi,Gang Zhang
発行日 2023-06-07 12:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク