-
最近の投稿
- CHARM: Considering Human Attributes for Reinforcement Modeling
- IKDiffuser: Fast and Diverse Inverse Kinematics Solution Generation for Multi-arm Robotic Systems
- SuperPoint-SLAM3: Augmenting ORB-SLAM3 with Deep Features, Adaptive NMS, and Learning-Based Loop Closure
- Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System
- A Novel ViDAR Device With Visual Inertial Encoder Odometry and Reinforcement Learning-Based Active SLAM Method
-
最近のコメント
表示できるコメントはありません。 cs.AI (39747) cs.CL (30084) cs.CV (45067) cs.HC (3038) cs.LG (44680) cs.RO (23778) cs.SY (3623) eess.IV (5162) eess.SY (3615) stat.ML (5812)
「eess.AS」カテゴリーアーカイブ
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む
Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む
Zero-resource Speech Translation and Recognition with LLMs
要約 音声処理の最近の進歩にも関わらず、ゼロリソース音声翻訳 (ST) と自動音 … 続きを読む
Long-Form Speech Generation with Spoken Language Models
要約 私たちは、長文マルチメディア生成とオーディオネイティブ音声アシスタントの要 … 続きを読む
How ‘Real’ is Your Real-Time Simultaneous Speech-to-Text Translation System?
要約 音声テキスト同時翻訳 (SimulST) は、話者の発話と同時にソース言語 … 続きを読む
Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
要約 最近、Linformer や Mamba などのアーキテクチャが、トランス … 続きを読む
An Investigation on the Potential of KAN in Speech Enhancement
要約 高忠実度の音声強調には、多くの場合、複雑なマルチスケール パターンをキャプ … 続きを読む
Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis
要約 拡散モデルの最近の進歩により、オーディオ駆動のトーキング ヘッド合成に革命 … 続きを読む
RiTTA: Modeling Event Relations in Text-to-Audio Generation
要約 Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコ … 続きを読む
Fine-tuning Whisper on Low-Resource Languages for Real-World Applications
要約 この論文では、スイスドイツ語をケーススタディとして使用し、文レベルのデータ … 続きを読む