Towards Optimizing OCR for Accessibility

要約

構造、強調、アイコンなどの視覚的な手がかりは、目の見える人が効率的に情報を探すのに重要な役割を果たし、楽しい読書体験をもたらします。
現在のOCRおよびテキスト読み上げソフトウェアはこれらの手がかりを無視するため、視覚障害者、低視力、およびその他の印刷障害者はこれらの手がかりを見逃し、退屈な読書体験をもたらします。
楽しいリスニング体験のための4つの意味論的目標を特定し、これらの目標に向けて前進するのに役立つ構文上の視覚的手がかりを特定します。
経験的に、聴覚的な形で1つまたは2つの視覚的な手がかりを保持することで、印刷コンテンツを聞くためのエクスペリエンスが大幅に向上することがわかりました。

要約(オリジナル)

Visual cues such as structure, emphasis, and icons play an important role in efficient information foraging by sighted individuals and make for a pleasurable reading experience. Blind, low-vision and other print-disabled individuals miss out on these cues since current OCR and text-to-speech software ignore them, resulting in a tedious reading experience. We identify four semantic goals for an enjoyable listening experience, and identify syntactic visual cues that help make progress towards these goals. Empirically, we find that preserving even one or two visual cues in aural form significantly enhances the experience for listening to print content.

arxiv情報

著者 Peya Mowar,Tanuja Ganu,Saikat Guha
発行日 2022-06-21 11:01:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク