-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
Direct Models for Simultaneous Translation and Automatic Subtitling: FBK@IWSLT2023
要約 この文書では、IWSLT 2023 評価キャンペーンの同時翻訳および自動字 … 続きを読む
Generative Speech Recognition Error Correction with Large Language Models
要約 私たちは、再スコアリングとエラー修正を実行する ASR ポストプロセッサー … 続きを読む
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models
要約 ディープ ニューラル ネットワークの進歩により、自動音声認識 (ASR) … 続きを読む
Synthia’s Melody: A Benchmark Framework for Unsupervised Domain Adaptation in Audio
要約 視覚と自然言語の深層学習は大幅に進歩しましたが、音声における教師なしドメイ … 続きを読む
Online Active Learning For Sound Event Detection
要約 データの収集と注釈は、教師あり機械学習タスクの前提条件であり、手間と時間が … 続きを読む
Disentangling Prosody Representations with Unsupervised Speech Reconstruction
要約 人間の音声は、意味内容、話者の身元、韻律情報などのさまざまな要素によって特 … 続きを読む
Updated Corpora and Benchmarks for Long-Form Speech Recognition
要約 ASR 研究の大部分は、トレーニング データとテスト データの両方が発話に … 続きを読む
Connecting Speech Encoder and Large Language Model for ASR
要約 大規模言語モデル (LLM) の優れた機能と多用途性により、自動音声認識 … 続きを読む
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
要約 100 以上の言語にわたって自動音声認識 (ASR) を実行する単一の大規 … 続きを読む
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement
要約 音声発話内の相関関係のない情報を解きほぐすことは、音声コミュニティ内での重 … 続きを読む