要約
触覚グラフィックは、視力喪失を伴う世界的に生活している4300万人の視覚情報へのアクセスを提供するために不可欠です。
これらのグラフィックを作成するための従来の方法は労働集約的であり、需要の高まりを満たすことができません。
テキストツーイメージの安定拡散(SD)モデルを使用してエンボスレディ2D触覚テンプレートを生成するための最初の包括的なデータセットとAI駆動型フレームワークであるTactilenetを紹介します。
低ランクの適応(LORA)とDreamBoothを統合することにより、この方法は、計算コストを削減しながら、忠実度、ガイドラインに準拠したグラフィックスを作成するためのSDモデルを微調整します。
触覚の専門家との定量的評価は、アクセシビリティ基準の92.86%の遵守を示しています。
構造的忠実度分析により、人間に近い設計の類似性が明らかになり、SSIMは生成されたグラフィックスとエキスパートが設計した触覚画像の間に0.538です。
特に、私たちの方法は、オブジェクトのシルエットを人間のデザイン(SSIM = 0.259対バイナリマスクの0.215)よりもよく保存し、手動触覚抽象の重要な制限に対処します。
フレームワークは、66のクラスで32,000の画像(7,050高品質)にスケーリングし、カスタマイズ可能な出力を有効にするプロンプトの編集(例:詳細の追加または削除)を拡大します。
2Dテンプレート生成を標準のエンボス加工ワークフロータクティレネットでステップ互換性を自動化することにより、デザインの柔軟性を維持しながら、生産を加速します。
この作業は、AIが人間の専門知識を(置き換えない)方法で、教育やそれ以降のアクセシビリティのギャップを埋める方法を示しています。
コード、データ、モデルは、さらなる研究を促進するために公開されます。
要約(オリジナル)
Tactile graphics are essential for providing access to visual information for the 43 million people globally living with vision loss. Traditional methods for creating these graphics are labor-intensive and cannot meet growing demand. We introduce TactileNet, the first comprehensive dataset and AI-driven framework for generating embossing-ready 2D tactile templates using text-to-image Stable Diffusion (SD) models. By integrating Low-Rank Adaptation (LoRA) and DreamBooth, our method fine-tunes SD models to produce high-fidelity, guideline-compliant graphics while reducing computational costs. Quantitative evaluations with tactile experts show 92.86% adherence to accessibility standards. Structural fidelity analysis revealed near-human design similarity, with an SSIM of 0.538 between generated graphics and expert-designed tactile images. Notably, our method preserves object silhouettes better than human designs (SSIM = 0.259 vs. 0.215 for binary masks), addressing a key limitation of manual tactile abstraction. The framework scales to 32,000 images (7,050 high-quality) across 66 classes, with prompt editing enabling customizable outputs (e.g., adding or removing details). By automating the 2D template generation step-compatible with standard embossing workflows-TactileNet accelerates production while preserving design flexibility. This work demonstrates how AI can augment (not replace) human expertise to bridge the accessibility gap in education and beyond. Code, data, and models will be publicly released to foster further research.
arxiv情報
著者 | Adnan Khan,Alireza Choubineh,Mai A. Shaaban,Abbas Akkasi,Majid Komeili |
発行日 | 2025-05-15 15:09:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google