-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「eess.AS」カテゴリーアーカイブ
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks
要約 大規模言語モデル (LLM) により、ゼネラリスト エージェントの野心的な … 続きを読む
BANSpEmo: A Bangla Emotional Speech Recognition Dataset
要約 音声および音声分析の分野では、音響信号から感情を識別する機能が不可欠です。 … 続きを読む
Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization
要約 アクティブ話者検出 (ASD) のための従来のオーディオビジュアル アプロ … 続きを読む
Speech Translation with Large Language Models: An Industrial Practice
要約 さまざまなタスクにわたる大規模言語モデル (LLM) が大きな成功を収めて … 続きを読む
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
要約 最近、指示に従う音声言語モデルが、人間との音声対話において広く注目を集めて … 続きを読む
EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models
要約 韻律強調をエンコードして再現する音声合成モデルの機能を評価するために設計さ … 続きを読む
On the choice of the optimal temporal support for audio classification with Pre-trained embeddings
要約 現在の最先端のオーディオ分析システムは、事前にトレーニングされた埋め込みモ … 続きを読む
Underwater Acoustic Signal Recognition Based on Salient Features
要約 技術の急速な進歩に伴い、複雑な環境における水中の音響信号の認識がますます重 … 続きを読む
Lattice Rescoring Based on Large Ensemble of Complementary Neural Language Models
要約 自動音声認識 (ASR) 仮説に基づく格子再スコアリングに高度な神経言語モ … 続きを読む
Stable Distillation: Regularizing Continued Pre-training for Low-Resource Automatic Speech Recognition
要約 既存の SSL モデルをターゲット ドメインに適応させるための継続的な自己 … 続きを読む