-
最近の投稿
- Simplified POMDP Planning with an Alternative Observation Space and Formal Performance Guarantees
- FREA: Feasibility-Guided Generation of Safety-Critical Scenarios with Reasonable Adversariality
- Enhanced Robot Planning and Perception through Environment Prediction
- FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning
- Energy-Cautious Designation of Kinematic Parameters for a Sustainable Parallel-Serial Heavy-Duty Manipulator Driven by Electromechanical Linear Actuator
-
最近のコメント
表示できるコメントはありません。 cs.AI (27989) cs.CL (21147) cs.CR (2187) cs.CV (34671) cs.LG (32719) cs.RO (16074) cs.SY (2489) eess.IV (4240) eess.SY (2483) stat.ML (4382)
「cs.SD」カテゴリーアーカイブ
TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition
要約 最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む
Implicit Self-supervised Language Representation for Spoken Language Diarization
要約 コード交換 (CS) シナリオでは、事前所有システムとして音声言語ダイアラ … 続きを読む
LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices
要約 LibriWASN は、LibriCSS 会議認識データ セットに厳密に準 … 続きを読む
Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation
要約 私たちが知覚する画像と音は、頭を回転させると、微妙ですが幾何学的に一貫した … 続きを読む
Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding
要約 最近、大規模な事前トレーニング済み言語モデルが強力な言語理解能力を実証して … 続きを読む
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge
要約 この論文は、これまでの文献では十分に取り上げられていなかった、特に低リソー … 続きを読む
TrOMR:Transformer-Based Polyphonic Optical Music Recognition
要約 光学式音楽認識 (OMR) は音楽における重要な技術であり、長い間研究され … 続きを読む
Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model
要約 自然言語処理の研究では、トレーニングされた自己回帰言語モデルからの生成の品 … 続きを読む
Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning
要約 私たちは、650 時間以上の 19 チャンネル オーディオ、一次アンビソニ … 続きを読む