-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception
要約 音声認識および翻訳システムは、現実の環境では頻繁に発生するノイズの多い入力 … 続きを読む
A Multimodal Approach to Device-Directed Speech Detection with Large Language Models
要約 仮想アシスタントとの対話は通常、事前定義されたトリガー フレーズで始まり、 … 続きを読む
Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton
要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む
Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation
要約 この論文では、第 6 回野生感情行動分析 (ABAW) コンペティションの … 続きを読む
LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech
要約 自己教師あり学習 (SSL) は、コンピューター ビジョンや自然言語処理な … 続きを読む
Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models
要約 マルチソース拡散モデル (MSDM) を使用すると、一貫したソースのセット … 続きを読む
A low latency attention module for streaming self-supervised speech representation learning
要約 トランスフォーマーは深層学習の基本的な構成要素であり、アテンション メカニ … 続きを読む
SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering
要約 音声質問応答 (SQA) は、マシンが特定の音声パッセージ内の回答範囲を見 … 続きを読む
Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages
要約 自己監視型音声エンコーダのコードスイッチング機能を直接評価するために設計さ … 続きを読む