-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Improved Cross-Lingual Transfer Learning For Automatic Speech Translation
要約 多言語の音声からテキストへの翻訳に関する研究が話題になっています。 複数の … 続きを読む
Iterative autoregression: a novel trick to improve your low-latency speech enhancement model
要約 ストリーミング モデルは、リアルタイム音声強調ツールの重要なコンポーネント … 続きを読む
VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]
要約 ユーザーがビデオ データセットに対してドメイン固有のモデルを構築できるよう … 続きを読む
UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures
要約 複数のスピーカーが同時に存在する残響状態では、各マイクは異なる場所にある複 … 続きを読む
Text-to-Speech Pipeline for Swiss German — A comparison
要約 この研究では、さまざまな Text-to-Speech (TTS) モデル … 続きを読む
Simple yet Effective Code-Switching Language Identification with Multitask Pre-Training and Transfer Learning
要約 コードスイッチング (コードミキシングとも呼ばれる) は、カジュアルな環境 … 続きを読む
MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets
要約 この論文では、トレーニングターゲットがどのように取得されるかということから … 続きを読む
Attention-Based Methods For Audio Question Answering
要約 音声質問応答 (AQA) は、システムに音声および自然言語の質問が提供され … 続きを読む
ViLaS: Integrating Vision and Language into Automatic Speech Recognition
要約 追加のマルチモーダル情報を使用して自動音声認識 (ASR) のパフォーマン … 続きを読む
Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models
要約 主に、暗黙的なセマンティック モデリングにより、自己教師あり学習 (SSL … 続きを読む