Finger in Camera Speaks Everything: Unconstrained Air-Writing for Real-World

要約

エア ライティングは、コンピュータ ビジョンと自然言語処理の分野を組み合わせた挑戦的なタスクであり、人間とコンピュータの対話に直感的で自然なアプローチを提供します。
しかし、現在のエア ライティング ソリューションは 2 つの主要な課題に直面しています。(1) 正確な手書きの軌跡を捕捉するための複雑なセンサー (レーダー、EEG など) への依存、(2) ビデオ ベースのエア ライティング データセットの欠如
包括的な語彙範囲をカバーします。
これらの制限により、iPhone やラップトップなどのデバイスでの使用を含む、現実世界のさまざまなシナリオでの実用性が妨げられます。
これらの課題に取り組むために、ビデオベースのエアライティングの先駆的なベンチマークとして機能する、画期的なエアライティング漢字ビデオ データセット (AWCV-100K-UCAS2024) を紹介します。
このデータセットは、一般的にアクセス可能な RGB カメラを使用して、現実世界のさまざまなシナリオで手書きの軌跡をキャプチャし、複雑なセンサーの必要性を排除します。
AWCV-100K-UCAS2024 には、GB2312-80 レベル 1 セット (GB1) の 3,755 文字の完全なセットを含む 880 万のビデオ フレームが含まれています。
さらに、ベースライン アプローチであるビデオベースの文字認識エンジン (VCRec) を紹介します。
VCRec は、まばらな視覚的手がかりから指先の特徴を巧みに抽出し、分析に時空間シーケンス モジュールを使用します。
実験結果は、空中で書かれた文字の認識において、既存のモデルと比較してVCRecが定量的および定性的に優れたパフォーマンスを示していることを示しています。
この画期的な進歩により、現実世界のコンテキストにおける人間とコンピューターの対話を強化する道が開かれます。
さらに、私たちのアプローチは手頃な価格の RGB カメラを活用しており、さまざまなシナリオでの適用を可能にしています。
コードとデータのサンプルは https://github.com/wmeiqi/AWCV で公開されます。

要約(オリジナル)

Air-writing is a challenging task that combines the fields of computer vision and natural language processing, offering an intuitive and natural approach for human-computer interaction. However, current air-writing solutions face two primary challenges: (1) their dependency on complex sensors (e.g., Radar, EEGs and others) for capturing precise handwritten trajectories, and (2) the absence of a video-based air-writing dataset that covers a comprehensive vocabulary range. These limitations impede their practicality in various real-world scenarios, including the use on devices like iPhones and laptops. To tackle these challenges, we present the groundbreaking air-writing Chinese character video dataset (AWCV-100K-UCAS2024), serving as a pioneering benchmark for video-based air-writing. This dataset captures handwritten trajectories in various real-world scenarios using commonly accessible RGB cameras, eliminating the need for complex sensors. AWCV-100K-UCAS2024 includes 8.8 million video frames, encompassing the complete set of 3,755 characters from the GB2312-80 level-1 set (GB1). Furthermore, we introduce our baseline approach, the video-based character recognizer (VCRec). VCRec adeptly extracts fingertip features from sparse visual cues and employs a spatio-temporal sequence module for analysis. Experimental results showcase the superior performance of VCRec compared to existing models in recognizing air-written characters, both quantitatively and qualitatively. This breakthrough paves the way for enhanced human-computer interaction in real-world contexts. Moreover, our approach leverages affordable RGB cameras, enabling its applicability in a diverse range of scenarios. The code and data examples will be made public at https://github.com/wmeiqi/AWCV.

arxiv情報

著者 Meiqi Wu,Kaiqi Huang,Yuanqiang Cai,Shiyu Hu,Yuzhong Zhao,Weiqiang Wang
発行日 2024-12-27 09:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク