cs.SD」カテゴリーアーカイブ

Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls

要約 サウンド デザイナーやフォーリー アーティストは通常​​、ビデオ内の関心の … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls はコメントを受け付けていません

GIRAFE: Glottal Imaging Dataset for Advanced Segmentation, Analysis, and Facilitative Playbacks Evaluation

要約 声帯の高速ビデオ内視鏡​​シーケンスから抽出された促進的再生の開発の進歩は … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | GIRAFE: Glottal Imaging Dataset for Advanced Segmentation, Analysis, and Facilitative Playbacks Evaluation はコメントを受け付けていません

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

要約 私たちは、一時的に調整されたクロスモーダル コンディショニングのためのフリ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation はコメントを受け付けていません

I Know Your Feelings Before You Do: Predicting Future Affective Reactions in Human-Computer Dialogue

要約 現在の音声対話システム (SDS) は、多くの場合、ユーザーの音声を受信し … 続きを読む

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | I Know Your Feelings Before You Do: Predicting Future Affective Reactions in Human-Computer Dialogue はコメントを受け付けていません

Certification of Speaker Recognition Models to Additive Perturbations

要約 話者認識テクノロジーは、パーソナル仮想アシスタントから安全なアクセス シス … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Certification of Speaker Recognition Models to Additive Perturbations はコメントを受け付けていません

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling はコメントを受け付けていません

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling はコメントを受け付けていません

CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval

要約 この研究では、音声テキスト情報の検索に合わせて調整された多言語、マルチモー … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS | CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval はコメントを受け付けていません

Modality-Inconsistent Continual Learning of Multimodal Large Language Models

要約 このペーパーでは、一貫性のないモダリティ (画像、音声、またはビデオ) と … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | Modality-Inconsistent Continual Learning of Multimodal Large Language Models はコメントを受け付けていません

Classification of Spontaneous and Scripted Speech for Multilingual Audio

要約 台本に書かれた発話と自発的な発話を区別することは、発話スタイルが音声処理研 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Classification of Spontaneous and Scripted Speech for Multilingual Audio はコメントを受け付けていません