-
最近の投稿
- LLM2Swarm: Robot Swarms that Responsively Reason, Plan, and Collaborate through LLMs
- Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies
- Light-Weight Fault Tolerant Attention for Large Language Model Training
- Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices
- Visual Manipulation with Legs
-
最近のコメント
表示できるコメントはありません。 cs.AI (28129) cs.CL (21250) cs.CR (2197) cs.CV (34801) cs.LG (32860) cs.RO (16178) cs.SY (2496) eess.IV (4244) eess.SY (2490) stat.ML (4401)
「eess.AS」カテゴリーアーカイブ
Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers
要約 この研究では、音素ベースの神経トランスデューサーのシーケンス識別トレーニン … 続きを読む
DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation
要約 直接音声ツー音声翻訳 (S2ST) は、単一のモデルを使用して音声をある言 … 続きを読む
Adapting the adapters for code-switching in multilingual ASR
要約 最近、事前トレーニングされた大規模な多言語音声モデルにより、自動音声認識 … 続きを読む
Audio-Visual Neural Syntax Acquisition
要約 私たちは視覚に基づいた音声から句構造を誘導する研究を行っています。 中心と … 続きを読む
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models
要約 複雑な世界でロボットの動作をプログラミングするには、器用な低レベルのスキル … 続きを読む
Deep Video Inpainting Guided by Audio-Visual Self-Supervision
要約 人間は、視聴覚事象についての事前知識に基づいて、聴覚情報から容易に情景を想 … 続きを読む
AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual Voice Conversion
要約 本稿では、サイクル構造とメルスペクトログラム前処理を備えたシンプルで堅牢な … 続きを読む
Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration
要約 音声とテキストの位置合わせの問題については、トレーニング中に完全な監視を使 … 続きを読む
Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models
要約 オーディオビジュアルラージ言語モデル (LLM) は大きな注目を集めていま … 続きを読む
The First Cadenza Signal Processing Challenge: Improving Music for Those With a Hearing Loss
要約 Cadenza プロジェクトは、難聴を持つ人々の音楽の音質を向上させること … 続きを読む