要約
不流暢性 (すなわち、通常の会話の流れの中断) は、話し言葉のどこにでもあります。
フィラー (‘uh’、’um’) は、他の種類の非流暢性と比較して最も頻繁に発生する非流暢性です。
しかし、私たちの知る限りでは、これらの音声イベントの音声言語理解 (SLU) に影響を与える研究の視点をまとめたリソースはありません。
この記事のこの目的は、全体的な方法で幅広い視点を調査することです。
つまり、根底にある (心理) 言語理論の考察から、自動音声認識 (ASR) および SLU システムでの注釈と考察、最後に世代の観点からの研究までです。
この記事の目的は、SLU および会話型 AI コミュニティに親しみやすい方法で視点を提示し、各分野の傾向と課題であると私たちが信じている前進について議論することです。
要約(オリジナル)
Disfluencies (i.e. interruptions in the regular flow of speech), are ubiquitous to spoken discourse. Fillers (‘uh’, ‘um’) are disfluencies that occur the most frequently compared to other kinds of disfluencies. Yet, to the best of our knowledge, there isn’t a resource that brings together the research perspectives influencing Spoken Language Understanding (SLU) on these speech events. This aim of this article is to survey a breadth of perspectives in a holistic way; i.e. from considering underlying (psycho)linguistic theory, to their annotation and consideration in Automatic Speech Recognition (ASR) and SLU systems, to lastly, their study from a generation standpoint. This article aims to present the perspectives in an approachable way to the SLU and Conversational AI community, and discuss moving forward, what we believe are the trends and challenges in each area.
arxiv情報
著者 | Tanvi Dinkar,Chloé Clavel,Ioana Vasilescu |
発行日 | 2023-03-24 15:35:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google