-
最近の投稿
- TOFFE — Temporally-binned Object Flow from Events for High-speed and Energy-Efficient Object Detection and Tracking
- ELEGNT: Expressive and Functional Movement Design for Non-anthropomorphic Robot
- Tightly Coupled SLAM with Imprecise Architectural Plans
- LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty
- Interaction Dataset of Autonomous Vehicles with Traffic Lights and Signs
-
最近のコメント
表示できるコメントはありません。 cs.AI (32585) cs.CL (24637) cs.CR (2521) cs.CV (38784) cs.LG (37457) cs.RO (18976) cs.SY (2901) eess.IV (4651) eess.SY (2895) stat.ML (4943)
「cs.SD」カテゴリーアーカイブ
How ‘Real’ is Your Real-Time Simultaneous Speech-to-Text Translation System?
要約 音声テキスト同時翻訳 (SimulST) は、話者の発話と同時にソース言語 … 続きを読む
Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
要約 最近、Linformer や Mamba などのアーキテクチャが、トランス … 続きを読む
Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis
要約 拡散モデルの最近の進歩により、オーディオ駆動のトーキング ヘッド合成に革命 … 続きを読む
RiTTA: Modeling Event Relations in Text-to-Audio Generation
要約 Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコ … 続きを読む
Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling
要約 会話アシスタントは、現実世界のさまざまなアプリケーションでますます普及して … 続きを読む
ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis
要約 韻律には、単語の文字通りの意味を超えた豊富な情報が含まれており、音声の明瞭 … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
GIRAFE: Glottal Imaging Dataset for Advanced Segmentation, Analysis, and Facilitative Playbacks Evaluation
要約 声帯の高速ビデオ内視鏡シーケンスから抽出された促進的再生の開発の進歩は … 続きを読む
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
要約 私たちは、一時的に調整されたクロスモーダル コンディショニングのためのフリ … 続きを読む
I Know Your Feelings Before You Do: Predicting Future Affective Reactions in Human-Computer Dialogue
要約 現在の音声対話システム (SDS) は、多くの場合、ユーザーの音声を受信し … 続きを読む