eess.AS」カテゴリーアーカイブ

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding

要約 最近、大規模な事前トレーニング済み言語モデルが強力な言語理解能力を実証して … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding はコメントを受け付けていません

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge

要約 この論文は、これまでの文献では十分に取り上げられていなかった、特に低リソー … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge はコメントを受け付けていません

TrOMR:Transformer-Based Polyphonic Optical Music Recognition

要約 光学式音楽認識 (OMR) は音楽における重要な技術であり、長い間研究され … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | TrOMR:Transformer-Based Polyphonic Optical Music Recognition はコメントを受け付けていません

Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model

要約 自然言語処理の研究では、トレーニングされた自己回帰言語モデルからの生成の品 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model はコメントを受け付けていません

Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning

要約 私たちは、650 時間以上の 19 チャンネル オーディオ、一次アンビソニ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning はコメントを受け付けていません

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions

要約 私たちは、オーディオビジュアル アクション イベントの大規模なデータセット … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions はコメントを受け付けていません

Accurate synthesis of Dysarthric Speech for ASR data augmentation

要約 構音障害は、発語筋の制御が遅く、協調性を欠いていることによる音声明瞭度の低 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Accurate synthesis of Dysarthric Speech for ASR data augmentation はコメントを受け付けていません

End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations

要約 従来のキーワード検索システムは自動音声認識 (ASR) 出力で動作するため … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations はコメントを受け付けていません

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

要約 私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization はコメントを受け付けていません

Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals

要約 ミリ波 (mmWave) ベースの音声認識により、会議音声の書き起こしや盗 … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals はコメントを受け付けていません