要約
私たちは視覚に基づいた音声から句構造を誘導する研究を行っています。
中心となるアイデアは、まず音声波形を一連の単語セグメントに分割し、その後、推定されたセグメントレベルの連続表現を使用してフレーズ構造を誘導することです。
私たちは、テキストに触れることなく、音声を聞いたり画像を見ることでフレーズ構造を学習するオーディオビジュアルニューラル構文学習器 (AV-NSL) を紹介します。
AV-NSL は、画像と音声キャプションのペアでトレーニングすることにより、英語とドイツ語の両方について、自然教師付きテキスト パーサーによって導出されたものと同等の意味のあるフレーズ構造を推論する機能を示します。
私たちの発見は、音声からの教師なし言語習得と根拠のある文法誘導に関するこれまでの研究を拡張し、2つのトピックの間のギャップを埋めるための1つのアプローチを提示します。
要約(オリジナル)
We study phrase structure induction from visually-grounded speech. The core idea is to first segment the speech waveform into sequences of word segments, and subsequently induce phrase structure using the inferred segment-level continuous representations. We present the Audio-Visual Neural Syntax Learner (AV-NSL) that learns phrase structure by listening to audio and looking at images, without ever being exposed to text. By training on paired images and spoken captions, AV-NSL exhibits the capability to infer meaningful phrase structures that are comparable to those derived by naturally-supervised text parsers, for both English and German. Our findings extend prior work in unsupervised language acquisition from speech and grounded grammar induction, and present one approach to bridge the gap between the two topics.
arxiv情報
| 著者 | Cheng-I Jeff Lai,Freda Shi,Puyuan Peng,Yoon Kim,Kevin Gimpel,Shiyu Chang,Yung-Sung Chuang,Saurabhchand Bhati,David Cox,David Harwath,Yang Zhang,Karen Livescu,James Glass | 
| 発行日 | 2023-10-11 16:54:57+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
