要約
世界中で約 2 億人がさまざまな程度の視覚障害に苦しんでおり、AI テクノロジーを活用してこれらの人々に歩行支援を提供することが重要になっています。
最近のビジョン言語モデル (VLM) の進歩により、VLM を使用してこの分野を改善することが人気の研究トピックとして浮上しています。
しかし、既存の手法のほとんどは、独自に構築した質問応答データセットで研究されており、歩行誘導のための統一されたトレーニングとテストのベンチマークが不足しています。
さらに、ブラインドウォーキングタスクでは、リアルタイムのストリーミングビデオ解析を実行し、簡潔でありながら有益なリマインダーを生成する必要がありますが、これは冗長な応答と低い推論効率に悩まされる VLM にとって大きな課題となります。
この論文では、まず、視覚障害者歩行タスクの公平なトレーニングとテストのベンチマークを提供するために、ヨーロッパとアジアからの 12,000 個のビデオとマニュアルのアノテーションのペアを含む、多様かつ広範かつ公平な歩行意識データセットをリリースします。
さらに、WalkVLM モデルが提案されています。このモデルは、階層計画の思考連鎖を使用して、簡潔だが有益なリマインダーを生成し、時間認識適応予測を利用してリマインダーの時間的冗長性を削減します。
最後に、盲目的歩行タスク用の確固たるベンチマークを確立し、このタスクのストリーム ビデオ処理における他の VLM と比較した WalkVLM の利点を検証しました。
データセットとコードは匿名リンク https://walkvlm2024.github.io でリリースされます。
要約(オリジナル)
Approximately 200 million individuals around the world suffer from varying degrees of visual impairment, making it crucial to leverage AI technology to offer walking assistance for these people. With the recent progress of vision-language models (VLMs), employing VLMs to improve this field has emerged as a popular research topic. However, most existing methods are studied on self-built question-answering datasets, lacking a unified training and testing benchmark for walk guidance. Moreover, in blind walking task, it is necessary to perform real-time streaming video parsing and generate concise yet informative reminders, which poses a great challenge for VLMs that suffer from redundant responses and low inference efficiency. In this paper, we firstly release a diverse, extensive, and unbiased walking awareness dataset, containing 12k video-manual annotation pairs from Europe and Asia to provide a fair training and testing benchmark for blind walking task. Furthermore, a WalkVLM model is proposed, which employs chain of thought for hierarchical planning to generate concise but informative reminders and utilizes temporal-aware adaptive prediction to reduce the temporal redundancy of reminders. Finally, we have established a solid benchmark for blind walking task and verified the advantages of WalkVLM in stream video processing for this task compared to other VLMs. Our dataset and code will be released at anonymous link https://walkvlm2024.github.io.
arxiv情報
著者 | Zhiqiang Yuan,Ting Zhang,Jiapei Zhang,Jie Zhou,Jinchao Zhang |
発行日 | 2024-12-30 12:29:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google