Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints

要約

この論文では、強力な遅延制約を伴う音声音声認識におけるコネクショニスト手法の使用について説明します。
この制約は、発音文字列を調音合成器に入力することにより、音声信号からリアルタイムで合成顔の唇の動きを導き出すタスクによって課されます。
さまざまな待ち時間条件における、多層パーセプトロンによって学習された時間発展モデルとビタビ復号器によって課された遷移モデルの間の相互作用を分析することに特に注意が払われました。
言語モデル (LM) の時間依存性をパラメーターによって制御する 2 つの実験が行われました。
結果は、関連する 3 つの要素、つまりニューラル ネットワーク トポロジ、LM の時間依存性の長さ、およびデコーダーの遅延の間に強い相互作用があることを示しています。

要約(オリジナル)

This paper describes the use of connectionist techniques in phonetic speech recognition with strong latency constraints. The constraints are imposed by the task of deriving the lip movements of a synthetic face in real time from the speech signal, by feeding the phonetic string into an articulatory synthesiser. Particular attention has been paid to analysing the interaction between the time evolution model learnt by the multi-layer perceptrons and the transition model imposed by the Viterbi decoder, in different latency conditions. Two experiments were conducted in which the time dependencies in the language model (LM) were controlled by a parameter. The results show a strong interaction between the three factors involved, namely the neural network topology, the length of time dependencies in the LM and the decoder latency.

arxiv情報

著者 Giampiero Salvi
発行日 2024-01-12 14:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS, I.2.7 パーマリンク