要約
統合手話アクセシビリティを備えたギリシャ語マルチモーダル読唇術 (GLaM-Sign) [1] は、聴覚障害者および難聴者 (DHH) をサポートするように設計された、アクセシビリティとマルチモーダル AI の画期的なリソースです。
FEELIT プロジェクト [2] から開発されたもので、リアルタイム手話翻訳や強化された字幕同期などのアプリケーション向けに、高解像度のオーディオ、ビデオ、テキスト転写、ギリシャ手話翻訳が統合されています。
その主な焦点はギリシャの観光部門における包括性の促進ですが、その適応性は教育、医療、公共サービスにも及びます。
将来の進歩により、高度な AI 手法と多様な関係者とのコラボレーションによって、単語レベルの精度と追加言語への拡張性が強化されるでしょう。
このデータセットは、コミュニケーションのギャップを解消し、イノベーションを促進し、倫理的な AI と包括的なテクノロジーのベンチマークを設定する上で、マルチモーダル リソースの変革の可能性を強調しています。
要約(オリジナル)
The Greek Language Multimodal Lip Reading with Integrated Sign Language Accessibility (GLaM-Sign) [1] is a groundbreaking resource in accessibility and multimodal AI, designed to support Deaf and Hard-of-Hearing (DHH) individuals. Developed from the FEELIT project [2], it integrates high-resolution audio, video, textual transcriptions, and Greek Sign Language translations for applications like real-time sign language translation and enhanced subtitle synchronization. While its primary focus is on promoting inclusivity in the Greek tourism sector, its adaptability extends to education, healthcare, and public services. Future advancements will enhance word-level precision and scalability to additional languages, supported by advanced AI methodologies and collaborations with diverse stakeholders. This dataset underscores the transformative potential of multimodal resources in bridging communication gaps, fostering innovation, and setting a benchmark for ethical AI and inclusive technologies.
arxiv情報
著者 | Dimitris Kouremenos,Klimis Ntalianis |
発行日 | 2025-01-09 13:06:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google