-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
SpeechAlign: Aligning Speech Generation to Human Preferences
要約 音声言語モデルは、リアルな音声を生成する点で大幅に進歩しており、ニューラル … 続きを読む
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition
要約 自動音声認識 (ASR) システムは騒がしい環境では大幅に性能が低下します … 続きを読む
VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain
要約 プライバシー制限により、医療分野では公的に利用可能な音声認識データセットが … 続きを読む
Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context
要約 アフリカの音声のみを対象としてトレーニングされた、最初の自己教師あり多言語 … 続きを読む
As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli
要約 合成メディアが次第にリアルになり、それを利用する障壁が下がり続けるにつれ、 … 続きを読む
Analyzing Musical Characteristics of National Anthems in Relation to Global Indices
要約 音楽は人々の心理や行動パターンの形成に大きな役割を果たしている。本論文では … 続きを読む
The VoicePrivacy 2024 Challenge Evaluation Plan
要約 この課題の課題は、言語的な内容や感情の状態を保護しつつ、話者の声の身元を隠 … 続きを読む
Encoding of lexical tone in self-supervised models of spoken language
要約 解釈可能性の研究により、自己教師付き音声言語モデル(SLM)は、音響、音声 … 続きを読む
ART: The Alternating Reading Task Corpus for Speech Entrainment and Imitation
要約 音声コミュニケーションにおける同調行動と模倣行動を研究するために、二人組に … 続きを読む
UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions
要約 最近の研究では、マルチタスク機能を持つ大規模な言語モデルを活用し、自然言語 … 続きを読む