eess.AS」カテゴリーアーカイブ

Towards Robust Speech Representation Learning for Thousands of Languages

要約 自己教師あり学習 (SSL) は、ラベル付きデータの必要性を減らし、音声テ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Towards Robust Speech Representation Learning for Thousands of Languages はコメントを受け付けていません

SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition

要約 オーディオビジュアル音声認識 (AVSR) は、自動音声認識 (ASR) … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition はコメントを受け付けていません

Is one brick enough to break the wall of spoken dialogue state tracking?

要約 タスク指向対話 (TOD) システムでは、ユーザーの要求に対するシステムの … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS, eess.SP | Is one brick enough to break the wall of spoken dialogue state tracking? はコメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

Deep Active Audio Feature Learning in Resource-Constrained Environments

要約 ラベル付きデータが不足しているため、生体音響アプリケーションでのディープ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Deep Active Audio Feature Learning in Resource-Constrained Environments はコメントを受け付けていません

Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models

要約 現在の音声ディープフェイク検出器にとって一般化は主な問題であり、配布外のデ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models はコメントを受け付けていません

ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data

要約 音声信号は、ロボットの相互作用や接触による物体の特性に関する豊富な情報を提 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO, cs.SD, eess.AS | ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data はコメントを受け付けていません

Advancing Airport Tower Command Recognition: Integrating Squeeze-and-Excitation and Broadcasted Residual Learning

要約 パイロットは航空交通管制の指示に正確に従わなければならないため、航空コマン … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Advancing Airport Tower Command Recognition: Integrating Squeeze-and-Excitation and Broadcasted Residual Learning はコメントを受け付けていません

BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5

要約 音声理解機能を事前トレーニングされた大規模言語モデルに組み込むことは、研究 … 続きを読む

カテゴリー: 68T10, cs.CL, cs.HC, cs.SD, eess.AS, I.2.7 | BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5 はコメントを受け付けていません

Subtractive Training for Music Stem Insertion using Latent Diffusion Models

要約 私たちは、他の楽器をコンテキストとして与えられた個々の楽器のステムを合成す … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Subtractive Training for Music Stem Insertion using Latent Diffusion Models はコメントを受け付けていません