Reading Recognition in the Wild

要約

常にオンのスマートメガネでエゴセントリックコンテキストAIを有効にするには、読書中を含め、ユーザーの世界との相互作用の記録を記録することが重要です。
この論文では、ユーザーがいつ読んでいるかを判断するために、認識を読むという新しいタスクを紹介します。
最初に、多様で現実的なシナリオで100時間の読み取りビデオと非読み取りビデオを含む、野生のデータセットで、最初の大規模なマルチモーダルリーディングを紹介します。
次に、タスクを解決するために使用できる3つのモダリティ(エゴセントリックRGB、視線、ヘッドポーズ)を特定し、これらのモダリティを個別にまたは組み合わせてタスクを実行する柔軟なトランスモデルを提示します。
これらのモダリティがタスクに関連し、補完的であることを示し、各モダリティを効率的かつ効果的にエンコードする方法を調査します。
さらに、このデータセットの読み物の種類を分類し、制約された設定で実施された現在の読み取り研究を大規模、多様性、リアリズムに拡張することに向けたこのデータセットの有用性を示します。
コード、モデル、およびデータは公開されます。

要約(オリジナル)

To enable egocentric contextual AI in always-on smart glasses, it is crucial to be able to keep a record of the user’s interactions with the world, including during reading. In this paper, we introduce a new task of reading recognition to determine when the user is reading. We first introduce the first-of-its-kind large-scale multimodal Reading in the Wild dataset, containing 100 hours of reading and non-reading videos in diverse and realistic scenarios. We then identify three modalities (egocentric RGB, eye gaze, head pose) that can be used to solve the task, and present a flexible transformer model that performs the task using these modalities, either individually or combined. We show that these modalities are relevant and complementary to the task, and investigate how to efficiently and effectively encode each modality. Additionally, we show the usefulness of this dataset towards classifying types of reading, extending current reading understanding studies conducted in constrained settings to larger scale, diversity and realism. Code, model, and data will be public.

arxiv情報

著者 Charig Yang,Samiul Alam,Shakhrul Iman Siam,Michael J. Proulx,Lambert Mathias,Kiran Somasundaram,Luis Pesqueira,James Fort,Sheroze Sheriffdeen,Omkar Parkhi,Carl Ren,Mi Zhang,Yuning Chai,Richard Newcombe,Hyo Jin Kim
発行日 2025-05-30 17:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク