要約
サイレントスピーチインターフェースは、自然言語によるプライベートなコミュニケーションを可能にする有望な技術です。
ただし、以前のアプローチでは、小さくて柔軟性のないボキャブラリしかサポートされていないため、表現力が制限されていました。
対照的な学習を活用して効率的な読唇術表現を学習し、最小限のユーザー労力で少数のコマンドのカスタマイズを可能にします。
私たちのモデルは、野生のデータセットでのさまざまな照明、姿勢、およびジェスチャー条件に対して高い堅牢性を示します。
25 コマンドの分類では、0.8947 の F1 スコアが 1 回のショットで達成可能であり、より多くのデータから適応的に学習することで、そのパフォーマンスをさらに向上させることができます。
この一般化可能性により、デバイス上の微調整とビジュアル キーワード スポッティングを強化したモバイル サイレント スピーチ インターフェースを開発することができました。
ユーザー調査では、LipLearner を使用すると、ユーザーはオンラインの増分学習スキームによって保証された高い信頼性で独自のコマンドを定義できることが実証されました。
主観的なフィードバックは、私たちのシステムが高い使いやすさと学習可能性を備えたカスタマイズ可能なサイレントスピーチインタラクションに不可欠な機能を提供することを示しました.
要約(オリジナル)
Silent speech interface is a promising technology that enables private communications in natural language. However, previous approaches only support a small and inflexible vocabulary, which leads to limited expressiveness. We leverage contrastive learning to learn efficient lipreading representations, enabling few-shot command customization with minimal user effort. Our model exhibits high robustness to different lighting, posture, and gesture conditions on an in-the-wild dataset. For 25-command classification, an F1-score of 0.8947 is achievable only using one shot, and its performance can be further boosted by adaptively learning from more data. This generalizability allowed us to develop a mobile silent speech interface empowered with on-device fine-tuning and visual keyword spotting. A user study demonstrated that with LipLearner, users could define their own commands with high reliability guaranteed by an online incremental learning scheme. Subjective feedback indicated that our system provides essential functionalities for customizable silent speech interactions with high usability and learnability.
arxiv情報
著者 | Zixiong Su,Shitao Fang,Jun Rekimoto |
発行日 | 2023-02-14 07:56:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google