-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking
要約 対話状態の追跡は、タスク指向の対話システムにおいて情報を抽出する上で重要な … 続きを読む
H_eval: A new hybrid evaluation metric for automatic speech recognition tasks
要約 自動音声認識(ASR)システムの評価指標としての単語誤り率(WER)の欠点 … 続きを読む
Unified Segment-to-Segment Framework for Simultaneous Sequence Generation
要約 同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳な … 続きを読む
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
要約 CoDi-2 は、複雑なマルチモーダルのインターリーブ命令に従い、コンテキ … 続きを読む
End-to-end Joint Rich and Normalized ASR with a limited amount of rich training data
要約 句読点や大文字を含む場合と含まない場合の両方の文字起こしを生成する、統合リ … 続きを読む
Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes
要約 ディープフェイク検出の課題は、音声や視覚の研究者によって解決されるには程遠 … 続きを読む
StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models
要約 我々は、音声に現れる話し方の自然言語記述を生成する手法、StyleCap … 続きを読む
TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models
要約 自動音声認識 (ASR) モデルは、デバイスに展開する前に、特定のハードウ … 続きを読む
CheapNET: Improving Light-weight speech enhancement network by projected loss function
要約 ノイズ抑制とエコー キャンセルは音声強調において重要であり、スマート デバ … 続きを読む
SER_AMPEL: A multi-source dataset for SER of Italian older adults
要約 この論文では、音声感情認識 (SER) 用のマルチソース データセットであ … 続きを読む