-
最近の投稿
- FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects Manipulation
- A Novel Twisted-Winching String Actuator for Robotic Applications: Design and Validation
- Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration
- Design Space Exploration of Embedded SoC Architectures for Real-Time Optimal Control
-
最近のコメント
表示できるコメントはありません。 cs.AI (28198) cs.CL (21301) cs.CR (2201) cs.CV (34856) cs.LG (32941) cs.RO (16224) cs.SY (2500) eess.IV (4250) eess.SY (2494) stat.ML (4412)
「eess.AS」カテゴリーアーカイブ
Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages
要約 自己監視型音声エンコーダのコードスイッチング機能を直接評価するために設計さ … 続きを読む
Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment
要約 自動発音評価 (APA) は、ある言語における第 2 言語 (L2) 学習 … 続きを読む
Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis
要約 最近のニューラル・ヴォコーディングの進歩は、主に時間領域で動作するGene … 続きを読む
Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment
要約 自動発音評価(APA)は、ある言語の第二言語(L2)学習者の発音習熟度を定 … 続きを読む
Wavelet Scattering Transform for Improving Generalization in Low-Resourced Spoken Language Identification
要約 音声言語識別(LID)でよく使われる特徴量、例えばmel-spectrog … 続きを読む
A Large-scale Dataset for Audio-Language Representation Learning
要約 AIコミュニティは、大規模なマルチモーダルデータセットに後押しされ、強力な … 続きを読む
Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data
要約 大量のデータを使用した音声モデルの事前トレーニングは、目覚ましい成功を収め … 続きを読む
MeetEval: A Toolkit for Computation of Word Error Rates for Meeting Transcription Systems
要約 MeetEval は、あらゆる種類の会議文字起こしシステムを評価するための … 続きを読む
On decoder-only architecture for speech-to-text and large language model integration
要約 大規模言語モデル (LLM) は、自然言語処理の分野で目覚ましい成功を収め … 続きを読む
Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments
要約 実際のアプリケーションでは、特に増分生成が必要なストリーミング シナリオで … 続きを読む