-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
The mutual exclusivity bias of bilingual visually grounded speech models
要約 相互排他性(私)は、おなじみの言葉ではなく、子供の言語学習を促進するのでは … 続きを読む
Acoustically Precise Hesitation Tagging Is Essential for End-to-End Verbatim Transcription Systems
要約 自動スピーキング評価のための逐語的転写は、エラー分析やフィードバックなどの … 続きを読む
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions
要約 意見表現に関する自動スピーキング評価(ASA)は、ラベル付きの録音の希少性 … 続きを読む
UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation
要約 手がかりのスピーチ(CS)は、ハンドコーディングを通じてリップリーディング … 続きを読む
Sounding that Object: Interactive Object-Aware Image to Audio Generation
要約 複雑なオーディオビジュアルシーンに対して正確なサウンドを生成することは、特 … 続きを読む
Towards a Japanese Full-duplex Spoken Dialogue System
要約 全二重音声対話システムは、音声の重なりやバックチャネルといった人間の会話の … 続きを読む
Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC
要約 教師ありまたは教師ありで事前に学習された音声基礎モデル(SFM)を用いた多 … 続きを読む
Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
要約 自閉症スペクトラム障害(ASD)は、社会的コミュニケーション、反復行動、お … 続きを読む
Bemba Speech Translation: Exploring a Low-Resource African Language
要約 このホワイトペーパーでは、スポークン言語翻訳に関する国際会議(IWSLT … 続きを読む
Efficient Speech Translation through Model Compression and Knowledge Distillation
要約 音声翻訳のための大規模なオーディオ言語モデルの効率的な展開は、重要な計算要 … 続きを読む