「eess.AS」カテゴリーアーカイブ

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

投稿日: 2024年12月20日作成者: jarxiv

要約私たちは、一時的に調整されたクロスモーダルコンディショニングのためのフリ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

I Know Your Feelings Before You Do: Predicting Future Affective Reactions in Human-Computer Dialogue

投稿日: 2024年12月19日作成者: jarxiv

要約現在の音声対話システム (SDS) は、多くの場合、ユーザーの音声を受信し … 続きを読む →

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Certification of Speaker Recognition Models to Additive Perturbations

投稿日: 2024年12月19日作成者: jarxiv

要約話者認識テクノロジーは、パーソナル仮想アシスタントから安全なアクセスシス … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

投稿日: 2024年12月19日作成者: jarxiv

要約小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

投稿日: 2024年12月18日作成者: jarxiv

要約小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval

投稿日: 2024年12月18日作成者: jarxiv

要約この研究では、音声テキスト情報の検索に合わせて調整された多言語、マルチモー … 続きを読む →

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS | コメントを受け付けていません

Modality-Inconsistent Continual Learning of Multimodal Large Language Models

投稿日: 2024年12月18日作成者: jarxiv

要約このペーパーでは、一貫性のないモダリティ (画像、音声、またはビデオ) と … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Classification of Spontaneous and Scripted Speech for Multilingual Audio

投稿日: 2024年12月17日作成者: jarxiv

要約台本に書かれた発話と自発的な発話を区別することは、発話スタイルが音声処理研 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection

投稿日: 2024年12月17日作成者: jarxiv

要約クラウドソーシングは音声データの収集を容易にし、拡張するための確立されたソ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks

投稿日: 2024年12月17日作成者: jarxiv

要約この研究では、コンピューターオーディションタスク用の新しい深層学習トレーニ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

I Know Your Feelings Before You Do: Predicting Future Affective Reactions in Human-Computer Dialogue

Certification of Speaker Recognition Models to Additive Perturbations

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval

Modality-Inconsistent Continual Learning of Multimodal Large Language Models

Classification of Spontaneous and Scripted Speech for Multilingual Audio

Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection

autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks

最近の投稿

最近のコメント

アーカイブ

カテゴリー