-
最近の投稿
- Predicting center of mass position in non-cyclic activities: The influence of acceleration, prediction horizon, and ground reaction forces
- Are Transformers Truly Foundational for Robotics?
- Performance Evaluation of Deep Learning-Based State Estimation: A Comparative Study of KalmanNet
- Performance Assessment of Lidar Odometry Frameworks: A Case Study at the Australian Botanic Garden Mount Annan
- VLM-Social-Nav: Socially Aware Robot Navigation through Scoring using Vision-Language Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (30189) cs.CL (22805) cs.CR (2340) cs.CV (36561) cs.LG (35013) cs.RO (17553) cs.SY (2697) eess.IV (4453) eess.SY (2691) stat.ML (4664)
「eess.AS」カテゴリーアーカイブ
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
要約 非音声音と非言語音声を知覚して理解することは、周囲と対話するのに役立つ意思 … 続きを読む
Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation
要約 DiffuseST は、複数のソース言語から英語に翻訳しながら、入力話者の … 続きを読む
An efficient text augmentation approach for contextualized Mandarin speech recognition
要約 文脈に応じた自動音声認識 (ASR) システムは、一般的ではない単語の認識 … 続きを読む
Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection
要約 Whisper は、堅牢かつ大規模な多言語音声認識モデルとして、多くの低リ … 続きを読む
Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content
要約 トランジション関連性 場所は、対話者が現在の話者の話を遮ることなく発言でき … 続きを読む
On the Evaluation of Speech Foundation Models for Spoken Language Understanding
要約 音声言語理解評価 (SLUE) ベンチマーク タスク スイートは、自然音声 … 続きを読む
Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation
要約 自動音声認識 (ASR) システムは、吃音に関連した不規則性 (不随意なブ … 続きを読む
To what extent can ASV systems naturally defend against spoofing attacks?
要約 現在の自動話者検証 (ASV) タスクには、ターゲットと非ターゲットの 2 … 続きを読む
One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model
要約 オールインワンのニューラル モデルを使用した、新しいワンパス複数 ASR … 続きを読む
COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning
要約 音声を大規模言語モデル (LLM) に統合し、その結果、命令追従/コンテキ … 続きを読む