An End-to-End Neural Network for Image-to-Audio Transformation

要約

このペーパーでは、リソースの少ないパーソナル コンピューティング デバイスで表示コンテンツの小さな部分をオーディオ レンダリングするためのエンド ツー エンド (E2E) ニューラル アーキテクチャについて説明します。
ハードウェア レベルで、視覚障害のあるユーザーや視覚障害のあるユーザーのアクセシビリティの問題に対処することを目的としています。
ニューラル画像からテキスト (ITT) とテキストから音声 (TTS) へのアプローチが見直され、効率的かつ逆伝播可能な方法でそれらを効率的に統合するための新しい手法が導入されています。
効率的でトレーニング可能な自己回帰 E2E 画像読み上げ (ITS) ニューラル ネットワーク。
非 E2E アプローチと比較して、提案された E2E システムは 29% 高速で、19% 少ないパラメーターを使用し、電話の精度が 2% 低下することを示す実験結果が提示されています。
精度に対処するための将来の方向性が提示されます。

要約(オリジナル)

This paper describes an end-to-end (E2E) neural architecture for the audio rendering of small portions of display content on low resource personal computing devices. It is intended to address the problem of accessibility for vision-impaired or vision-distracted users at the hardware level. Neural image-to-text (ITT) and text-to-speech (TTS) approaches are reviewed and a new technique is introduced to efficiently integrate them in a way that is both efficient and back-propagate-able, leading to a non-autoregressive E2E image-to-speech (ITS) neural network that is efficient and trainable. Experimental results are presented showing that, compared with the non-E2E approach, the proposed E2E system is 29% faster and uses 19% fewer parameters with a 2% reduction in phone accuracy. A future direction to address accuracy is presented.

arxiv情報

著者 Liu Chen,Michael Deisher,Munir Georges
発行日 2023-03-10 16:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE, eess.AS パーマリンク