VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software

要約

コンピューター支援設計(CAD)は、時間のかかる複雑なプロセスであり、複雑な3Dインターフェイスとの正確で長期のユーザーインタラクションが必要です。
AI駆動型のユーザーインターフェイス(UI)エージェントの最近の進歩は有望であることを示していますが、ほとんどの既存のデータセットとメソッドは、モバイルまたはWebアプリケーションの短くて低い複雑さのタスクに焦点を当てており、専門のエンジニアリングツールの要求を把握できません。
この作業では、精密タスクのUIインタラクション学習をエンジニアリングする最初の試みであるVideoCADを紹介します。
具体的には、VideoCADは、人間が作成したCAD設計から高忠実度UIアクションデータを収集するために自動化されたフレームワークを使用して生成されたCAD操作の41K以上の注釈付きビデオ録画で構成される大規模な合成データセットです。
既存のデータセットと比較して、VideoCADは、他のデータセットよりも最大20倍長い期間を持つ、実際のエンジニアリングタスクのUIインタラクション学習において数桁高い複雑さを提供します。
VideoCADの2つの重要なダウンストリームアプリケーションを示しています。プロの精度3D CADツールからのUIの相互作用と、マルチモーダル大手言語モデル(LLM)の空間推論とビデオ理解能力を評価するために設計された視覚的な質問(VQA)ベンチマーク。
UIの相互作用を学習するために、ビデオカドフォーマーを提案します。これは、ビデオからCAD相互作用を直接学習する最先端のモデルであり、複数の動作がベースラインを上回るよりも優れています。
VideoCADから派生したVideCadformerとVQAベンチマークの両方が、正確なアクション接地、マルチモーダルおよび空間的推論、および長老依存関係の必要性を含む、ビデオベースのUI理解の現在の状態における重要な課題を明らかにしています。

要約(オリジナル)

Computer-Aided Design (CAD) is a time-consuming and complex process, requiring precise, long-horizon user interactions with intricate 3D interfaces. While recent advances in AI-driven user interface (UI) agents show promise, most existing datasets and methods focus on short, low-complexity tasks in mobile or web applications, failing to capture the demands of professional engineering tools. In this work, we introduce VideoCAD, the first attempt at engineering UI interaction learning for precision tasks. Specifically, VideoCAD is a large-scale synthetic dataset consisting of over 41K annotated video recordings of CAD operations, generated using an automated framework for collecting high-fidelity UI action data from human-made CAD designs. Compared to existing datasets, VideoCAD offers an order of magnitude higher complexity in UI interaction learning for real-world engineering tasks, having up to a 20x longer time horizon than other datasets. We show two important downstream applications of VideoCAD: learning UI interactions from professional precision 3D CAD tools and a visual question-answering (VQA) benchmark designed to evaluate multimodal large language models’ (LLM) spatial reasoning and video understanding abilities. To learn the UI interactions, we propose VideoCADFormer – a state-of-the-art model in learning CAD interactions directly from video, which outperforms multiple behavior cloning baselines. Both VideoCADFormer and the VQA benchmark derived from VideoCAD reveal key challenges in the current state of video-based UI understanding, including the need for precise action grounding, multi-modal and spatial reasoning, and long-horizon dependencies.

arxiv情報

著者 Brandon Man,Ghadi Nehme,Md Ferdous Alam,Faez Ahmed
発行日 2025-05-30 17:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク