-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「eess.AS」カテゴリーアーカイブ
Multilingual acoustic word embeddings for zero-resource languages
要約 この研究は、ラベル付きデータのないゼロリソース言語向けの音声アプリケーショ … 続きを読む
Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization
要約 話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む
Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation
要約 拡張現実 (AR) デバイスは、著名なモバイル インタラクション プラット … 続きを読む
NEUROSEC: FPGA-Based Neuromorphic Audio Security
要約 人間の脳の複雑さと機能からインスピレーションを得たニューロモーフィック シ … 続きを読む
Resource-constrained stereo singing voice cancellation
要約 我々は、音楽ソース分離のサブタスクであるステレオ歌声キャンセルの問題を研究 … 続きを読む
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models
要約 このペーパーでは、大規模言語モデル (LLM) を利用して話者ダイアライゼ … 続きを読む
Streaming Bilingual End-to-End ASR model using Attention over Multiple Softmax
要約 多言語モデリングがいくつか進歩したとしても、入力言語を知らずに単一のニュー … 続きを読む
Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers
要約 この研究では、中間層を使用した BERT 教師モデルから自動音声認識 (A … 続きを読む
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
要約 我々は、初期ノイズ潜在を最適化することで推論時間に事前トレーニングされたテ … 続きを読む
Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling
要約 この論文の目標は、文字を認識した字幕を自動生成することです。 ビデオと最小 … 続きを読む