「cs.SD」カテゴリーアーカイブ

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

投稿日: 2023年8月22日作成者: jarxiv

要約私たちが知覚する画像と音は、頭を回転させると、微妙ですが幾何学的に一貫した … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding

投稿日: 2023年8月21日作成者: jarxiv

要約最近、大規模な事前トレーニング済み言語モデルが強力な言語理解能力を実証して … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge

投稿日: 2023年8月21日作成者: jarxiv

要約この論文は、これまでの文献では十分に取り上げられていなかった、特に低リソー … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

TrOMR:Transformer-Based Polyphonic Optical Music Recognition

投稿日: 2023年8月21日作成者: jarxiv

要約光学式音楽認識 (OMR) は音楽における重要な技術であり、長い間研究され … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model

投稿日: 2023年8月21日作成者: jarxiv

要約自然言語処理の研究では、トレーニングされた自己回帰言語モデルからの生成の品 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning

投稿日: 2023年8月21日作成者: jarxiv

要約私たちは、650 時間以上の 19 チャンネルオーディオ、一次アンビソニ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions

投稿日: 2023年8月21日作成者: jarxiv

要約私たちは、オーディオビジュアルアクションイベントの大規模なデータセット … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Accurate synthesis of Dysarthric Speech for ASR data augmentation

投稿日: 2023年8月17日作成者: jarxiv

要約構音障害は、発語筋の制御が遅く、協調性を欠いていることによる音声明瞭度の低 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations

投稿日: 2023年8月17日作成者: jarxiv

要約従来のキーワード検索システムは自動音声認識 (ASR) 出力で動作するため … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

投稿日: 2023年8月17日作成者: jarxiv

要約私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge

TrOMR:Transformer-Based Polyphonic Optical Music Recognition

Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model

Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions

Accurate synthesis of Dysarthric Speech for ASR data augmentation

End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

最近の投稿

最近のコメント

アーカイブ

カテゴリー