-
最近の投稿
- Design of a Visual Pose Estimation Algorithm for Moon Landing
- A novel step-by-step procedure for the kinematic calibration of robots using a single draw-wire encoder
- Ultra-High-Frequency Harmony: mmWave Radar and Event Camera Orchestrate Accurate Drone Landing
- Geometric Freeze-Tag Problem
- A Dual-Motor Actuator for Ceiling Robots with High Force and High Speed Capabilities
-
最近のコメント
表示できるコメントはありません。 cs.AI (34107) cs.CL (25783) cs.CR (2623) cs.CV (40027) cs.LG (39092) cs.RO (19895) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5162)
「eess.AS」カテゴリーアーカイブ
Enhancing Whisper’s Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization
要約 自動音声認識は、最近、Whisper などの大規模な基礎モデルによって大幅 … 続きを読む
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む
Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む
Zero-resource Speech Translation and Recognition with LLMs
要約 音声処理の最近の進歩にも関わらず、ゼロリソース音声翻訳 (ST) と自動音 … 続きを読む
Long-Form Speech Generation with Spoken Language Models
要約 私たちは、長文マルチメディア生成とオーディオネイティブ音声アシスタントの要 … 続きを読む
How ‘Real’ is Your Real-Time Simultaneous Speech-to-Text Translation System?
要約 音声テキスト同時翻訳 (SimulST) は、話者の発話と同時にソース言語 … 続きを読む
Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
要約 最近、Linformer や Mamba などのアーキテクチャが、トランス … 続きを読む
An Investigation on the Potential of KAN in Speech Enhancement
要約 高忠実度の音声強調には、多くの場合、複雑なマルチスケール パターンをキャプ … 続きを読む
Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis
要約 拡散モデルの最近の進歩により、オーディオ駆動のトーキング ヘッド合成に革命 … 続きを読む
RiTTA: Modeling Event Relations in Text-to-Audio Generation
要約 Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコ … 続きを読む