eess.AS」カテゴリーアーカイブ

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | コメントする

Audio Texture Manipulation by Exemplar-Based Analogy

要約 オーディオ テクスチャの操作には、聴覚要素の追加、削除、置換などの特定の変 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | コメントする

An End-to-End Approach for Korean Wakeword Systems with Speaker Authentication

要約 ウェイクワード検出は、AI アシスタントがユーザーの声を聞き、効果的に対話 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, I.2.7 | コメントする

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | コメントする

How Redundant Is the Transformer Stack in Speech Representation Models?

要約 自己教師あり音声表現モデル、特にトランス アーキテクチャを活用したモデルは … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントする

Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores

要約 kNN-CTC モデルは、単言語自動音声認識 (ASR) に有効であること … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding

要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments

要約 オーディオ信号処理における深層強化学習 (DRL) アプローチは近年大幅な … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI

要約 以前のリアルタイム MRI (rtMRI) ベースの音声合成モデルは、ノイ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR

要約 自動音声認識 (ASR) システムは、構音障害のある音声に対してはパフォー … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする