-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
SLIC: Large Receptive Field Learning with Self-Conditioned Adaptability for Learned Image Compression
要約 最近、トランスフォーマーは、圧縮などのビジョンタスクにおいて CNN の代 … 続きを読む
Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation
要約 自然言語からターゲットドメインを深く理解することで、私たちは大きなドメイン … 続きを読む
Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark
要約 この論文では、MALS と呼ばれる、テキストベースの人物検索のための大規模 … 続きを読む
Deep Learning for Diverse Data Types Steganalysis: A Review
要約 ステガノグラフィーとステガナリシスは、情報セキュリティ分野の 2 つの相互 … 続きを読む
Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark
要約 この論文では、MALS と呼ばれる、テキストベースの人物検索のための大規模 … 続きを読む
Versatile Face Animator: Driving Arbitrary 3D Facial Avatar in RGBD Space
要約 リアルな 3D フェイシャル アニメーションの作成は、映画制作やゲーム業界 … 続きを読む
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
要約 オーディオ生成には、音声、音楽、効果音など、さまざまなタイプのオーディオに … 続きを読む
Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization
要約 自己教師による音源定位は、通常、モダリティの不一致によって困難になります。 … 続きを読む
Separate Anything You Describe
要約 Language-Queryed Audio Source Separat … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースのクロスモダリティ事前トレーニング アプローチは、最近、さま … 続きを読む