-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「eess.AS」カテゴリーアーカイブ
Building Ears for Robots: Machine Hearing in the Age of Autonomy
要約 不確実な環境におけるフィールドロボットの増加により、ロボットの聴覚システム … 続きを読む
Efficient Deep Speech Understanding at the Edge
要約 現代の音声理解(SU)では、ストリーミング音声入力の取り込みを含む高度なパ … 続きを読む
Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking
要約 対話状態の追跡は、タスク指向の対話システムにおいて情報を抽出する上で重要な … 続きを読む
H_eval: A new hybrid evaluation metric for automatic speech recognition tasks
要約 自動音声認識(ASR)システムの評価指標としての単語誤り率(WER)の欠点 … 続きを読む
Unified Segment-to-Segment Framework for Simultaneous Sequence Generation
要約 同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳な … 続きを読む
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
要約 CoDi-2 は、複雑なマルチモーダルのインターリーブ命令に従い、コンテキ … 続きを読む
End-to-end Joint Rich and Normalized ASR with a limited amount of rich training data
要約 句読点や大文字を含む場合と含まない場合の両方の文字起こしを生成する、統合リ … 続きを読む
Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes
要約 ディープフェイク検出の課題は、音声や視覚の研究者によって解決されるには程遠 … 続きを読む
StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models
要約 我々は、音声に現れる話し方の自然言語記述を生成する手法、StyleCap … 続きを読む