Are Open-Vocabulary Models Ready for Detection of MEP Elements on Construction Sites

要約

建設業界は長い間ロボット工学とコンピュータービジョンを研究してきましたが、建設現場でのそれらの導入は依然として非常に限られています。
これらのテクノロジーは、建設管理の精度、効率、安全性を向上させ、従来のワークフローに革命をもたらす可能性があります。
高度なビジョン システムを装備した地上ロボットは、機械、電気、配管 (MEP) システムの監視などのタスクを自動化できます。
本研究では、移動式地上ロボットプラットフォームを使用して MEP コンポーネントを検出するための、微調整された軽量の閉集合物体検出器と比較した、オープン語彙視覚言語モデルの適用可能性を評価します。
地上ロボットに搭載されたカメラで収集されたデータセットは、モデルのパフォーマンスを比較するために手動で注釈が付けられ、分析されました。
この結果は、ビジョン言語モデルの多用途性にも関わらず、特殊な環境やドメイン固有のタスクでは、微調整された軽量モデルが依然としてそれらを大幅に上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

The construction industry has long explored robotics and computer vision, yet their deployment on construction sites remains very limited. These technologies have the potential to revolutionize traditional workflows by enhancing accuracy, efficiency, and safety in construction management. Ground robots equipped with advanced vision systems could automate tasks such as monitoring mechanical, electrical, and plumbing (MEP) systems. The present research evaluates the applicability of open-vocabulary vision-language models compared to fine-tuned, lightweight, closed-set object detectors for detecting MEP components using a mobile ground robotic platform. A dataset collected with cameras mounted on a ground robot was manually annotated and analyzed to compare model performance. The results demonstrate that, despite the versatility of vision-language models, fine-tuned lightweight models still largely outperform them in specialized environments and for domain-specific tasks.

arxiv情報

著者 Abdalwhab Abdalwhab,Ali Imran,Sina Heydarian,Ivanka Iordanova,David St-Onge
発行日 2025-01-16 03:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク