Sketch Input Method Editor: A Comprehensive Dataset and Methodology for Systematic Input Recognition

要約

最近のタッチスクリーン デバイスの使用の急増により、フリーハンド スケッチが人間とコンピューターの対話の有望な手法として浮上しています。
これまでの研究は、日常の身近なオブジェクトの認識、検索、生成などのタスクに焦点を当てていましたが、この研究は、プロフェッショナルな C4I システム用に特別に設計された Sketch Input Method Editor (SketchIME) を作成することを目的としています。
このシステム内では、スケッチは、包括的な状況マップの作成において標準化されたシンボルを推奨するための低忠実度のプロトタイプとして利用されます。
この論文では、374 の特殊なスケッチ タイプで構成される体系的なデータセットも示し、パフォーマンスを向上させ、解釈可能性を高めるために、認識とセグメンテーションの間のマルチレベル監視を備えた同時認識およびセグメンテーション アーキテクチャを提案します。
少数ショットのドメイン適応とクラス増分学習を組み込むことにより、新しいユーザーに適応し、新しいタスク固有のクラスに拡張するネットワークの能力が大幅に強化されます。
提案されたデータセットと SPG データセットの両方で実行された実験の結果は、提案されたアーキテクチャの優れたパフォーマンスを示しています。
私たちのデータセットとコードは、https://github.com/GuangmingZhu/SketchIME で公開されています。

要約(オリジナル)

With the recent surge in the use of touchscreen devices, free-hand sketching has emerged as a promising modality for human-computer interaction. While previous research has focused on tasks such as recognition, retrieval, and generation of familiar everyday objects, this study aims to create a Sketch Input Method Editor (SketchIME) specifically designed for a professional C4I system. Within this system, sketches are utilized as low-fidelity prototypes for recommending standardized symbols in the creation of comprehensive situation maps. This paper also presents a systematic dataset comprising 374 specialized sketch types, and proposes a simultaneous recognition and segmentation architecture with multilevel supervision between recognition and segmentation to improve performance and enhance interpretability. By incorporating few-shot domain adaptation and class-incremental learning, the network’s ability to adapt to new users and extend to new task-specific classes is significantly enhanced. Results from experiments conducted on both the proposed dataset and the SPG dataset illustrate the superior performance of the proposed architecture. Our dataset and code are publicly available at https://github.com/GuangmingZhu/SketchIME.

arxiv情報

著者 Guangming Zhu,Siyuan Wang,Qing Cheng,Kelong Wu,Hao Li,Liang Zhang
発行日 2024-03-31 13:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク