eess.AS」カテゴリーアーカイブ

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | コメントする

CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval

要約 この研究では、音声テキスト情報の検索に合わせて調整された多言語、マルチモー … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS | コメントする

Modality-Inconsistent Continual Learning of Multimodal Large Language Models

要約 このペーパーでは、一貫性のないモダリティ (画像、音声、またはビデオ) と … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントする

Classification of Spontaneous and Scripted Speech for Multilingual Audio

要約 台本に書かれた発話と自発的な発話を区別することは、発話スタイルが音声処理研 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection

要約 クラウドソーシングは音声データの収集を容易にし、拡張するための確立されたソ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks

要約 この研究では、コンピューターオーディションタスク用の新しい深層学習トレーニ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする

SonicBoom: Contact Localization Using Array of Microphones

要約 農業環境など、視覚センサーが重度の遮蔽に遭遇する乱雑な環境では、触覚信号は … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | コメントする

Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models

要約 音声質問応答 (AQA) タスクには、音声イベント分類、音声キャプション、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models

要約 前回の研究では、教師付き離散音声トークンに基づく多言語音声合成モデルである … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする

Learned Compression for Compressed Learning

要約 最新のセンサーは、ますます豊富な高解像度データのストリームを生成します。 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.AS, eess.IV, eess.SP | コメントする