-
最近の投稿
- FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects Manipulation
- A Novel Twisted-Winching String Actuator for Robotic Applications: Design and Validation
- Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration
- Design Space Exploration of Embedded SoC Architectures for Real-Time Optimal Control
-
最近のコメント
表示できるコメントはありません。 cs.AI (28198) cs.CL (21301) cs.CR (2201) cs.CV (34856) cs.LG (32941) cs.RO (16224) cs.SY (2500) eess.IV (4250) eess.SY (2494) stat.ML (4412)
「eess.AS」カテゴリーアーカイブ
Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study
要約 通常、1 秒あたり数万のレートでサンプリングされる音声信号には冗長性が含ま … 続きを読む
A Deep Learning System for Domain-specific Speech Recognition
要約 マンマシンの音声インターフェイスにより、ますますインテリジェントになるマシ … 続きを読む
Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing
要約 エンドツーエンドの音声テキスト翻訳 (ST) における最近の研究では、テキ … 続きを読む
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models
要約 テキスト読み上げ (TTS) 手法は、音声クローン作成において有望な結果を … 続きを読む
Direct Models for Simultaneous Translation and Automatic Subtitling: FBK@IWSLT2023
要約 この文書では、IWSLT 2023 評価キャンペーンの同時翻訳および自動字 … 続きを読む
Generative Speech Recognition Error Correction with Large Language Models
要約 私たちは、再スコアリングとエラー修正を実行する ASR ポストプロセッサー … 続きを読む
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models
要約 ディープ ニューラル ネットワークの進歩により、自動音声認識 (ASR) … 続きを読む
Synthia’s Melody: A Benchmark Framework for Unsupervised Domain Adaptation in Audio
要約 視覚と自然言語の深層学習は大幅に進歩しましたが、音声における教師なしドメイ … 続きを読む
Online Active Learning For Sound Event Detection
要約 データの収集と注釈は、教師あり機械学習タスクの前提条件であり、手間と時間が … 続きを読む
Disentangling Prosody Representations with Unsupervised Speech Reconstruction
要約 人間の音声は、意味内容、話者の身元、韻律情報などのさまざまな要素によって特 … 続きを読む