-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
GigaST: A 10,000-hour Pseudo Speech Translation Corpus
要約 本稿では、大規模な擬似音声翻訳(ST)コーパスであるGigaSTを紹介しま … 続きを読む
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
要約 私たちは、大規模言語モデル (LLM) にビデオ内の視覚コンテンツと聴覚コ … 続きを読む
Simultaneous or Sequential Training? How Speech Representations Cooperate in a Multi-Task Self-Supervised Learning System
要約 自己教師ありアルゴリズムによる音声表現学習により、多くの下流タスクのパフォ … 続きを読む
On the Behavior of Intrusive and Non-intrusive Speech Enhancement Metrics in Predictive and Generative Settings
要約 ディープスピーチエンハンスメントの分野は、その誕生以来、スペクトル マッピ … 続きを読む
Multiple output samples for each input in a single-output Gaussian process
要約 標準のガウス プロセス (GP) では、トレーニング セット内の入力ごとに … 続きを読む
Pre-training for Speech Translation: CTC Meets Optimal Transport
要約 音声とテキストのモダリティ間のギャップは、音声からテキストへの翻訳 (ST … 続きを読む
N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition
要約 最近開発された多言語の弱教師モデルである Whisper は、単言語設定と … 続きを読む
PolyVoice: Language Models for Speech to Speech Translation
要約 私たちは、言語モデルベースの音声翻訳 (S2ST) システムのフレームワー … 続きを読む