eess.AS」カテゴリーアーカイブ

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models

要約 仮想アシスタントとの対話は通常、トリガー フレーズで始まり、その後にコマン … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models はコメントを受け付けていません

Towards small and accurate convolutional neural networks for acoustic biodiversity monitoring

要約 動物の鳴き声の自動分類は、生物多様性の大規模モニタリングの前提条件です。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Towards small and accurate convolutional neural networks for acoustic biodiversity monitoring はコメントを受け付けていません

Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition and Phoneme to Grapheme Translation

要約 この研究では、音素認識と音素から書記素への翻訳モデルを強化することにより、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition and Phoneme to Grapheme Translation はコメントを受け付けていません

Data is Overrated: Perceptual Metrics Can Lead Learning in the Absence of Training Data

要約 知覚メトリクスは伝統的に、画像や音声などの自然信号の品質を評価するために使 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS, eess.IV | Data is Overrated: Perceptual Metrics Can Lead Learning in the Absence of Training Data はコメントを受け付けていません

JAMMIN-GPT: Text-based Improvisation using LLMs in Ableton Live

要約 Ableton Live のユーザーが音楽の説明を付けて名前を付けて MI … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | JAMMIN-GPT: Text-based Improvisation using LLMs in Ableton Live はコメントを受け付けていません

An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

要約 機械学習の進歩により、自動音声認識 (ASR) を含むさまざまなテキストお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition はコメントを受け付けていません

VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing

要約 ビデオ ダビングは、映画やテレビ番組の元の音声をターゲット言語の音声に翻訳 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, eess.AS | VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing はコメントを受け付けていません

Is one brick enough to break the wall of spoken dialogue state tracking?

要約 タスク指向対話 (TOD) システムでは、ユーザーのニーズに対するシステム … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS, eess.SP | Is one brick enough to break the wall of spoken dialogue state tracking? はコメントを受け付けていません

Iterative autoregression: a novel trick to improve your low-latency speech enhancement model

要約 ストリーミング モデルは、リアルタイム音声強調ツールの重要なコンポーネント … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Iterative autoregression: a novel trick to improve your low-latency speech enhancement model はコメントを受け付けていません

Building Ears for Robots: Machine Hearing in the Age of Autonomy

要約 この研究では、ロボット聴覚システムの重要性を調査し、多様で不確実な環境で動 … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Building Ears for Robots: Machine Hearing in the Age of Autonomy はコメントを受け付けていません