-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
要約 近年、Web ビデオの爆発的な増加により、ビデオのフィルタリング、推奨、検 … 続きを読む
K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling
要約 歌詞の翻訳は、1 世紀以上にわたって研究されてきた分野であり、現在、計算言 … 続きを読む
Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis
要約 拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む
A Large-scale Dataset for Audio-Language Representation Learning
要約 AI コミュニティは、大規模なマルチモーダル データセットを活用した強力な … 続きを読む
MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation
要約 事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む
Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation
要約 拡散モデルは、大部分の Text-to-Audio (TTA) 生成方法を … 続きを読む
MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation
要約 事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む
Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping
要約 私たちは、特定の地理的位置で知覚される可能性が最も高い音を予測することを含 … 続きを読む
Sound Source Localization is All about Cross-Modal Alignment
要約 人間は、音源定位と呼ばれる、視覚的なシーンにおける音源の方向を容易に認識で … 続きを読む
MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings
要約 身体行動言語は重要な社会的合図であり、その自動分析は人工知能システムの理解 … 続きを読む