-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Priority-Centric Human Motion Generation in Discrete Latent Space
要約 テキストからモーションへの生成は、人間の能力と物理法則に準拠しながら、入力 … 続きを読む
Exploiting Diverse Feature for Multimodal Sentiment Analysis
要約 このペーパーでは、MuSe 2023 マルチモーダル感情分析チャレンジの … 続きを読む
Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?
要約 マルチメディア コミュニティは、マルチモーダルな事前学習済みニューラル ネ … 続きを読む
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning
要約 画像のキャプション作成は、視覚と言語を伴う多くのタスクと同様に、現在、画像 … 続きを読む
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations
要約 大規模な視覚言語の事前トレーニングは、マルチモーダルな理解と生成タスクにお … 続きを読む
Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?
要約 マルチメディア コミュニティは、マルチモーダルな事前学習済みニューラル ネ … 続きを読む
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE
要約 多様でマルチモーダルなデータから学習するためのスケーラブルなビジョン言語モ … 続きを読む
CgT-GAN: CLIP-guided Text GAN for Image Captioning
要約 大規模な視覚言語の事前トレーニング モデルである Contrastive … 続きを読む
Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing
要約 ファッションイラストは、デザイナーが自分のビジョンを伝え、デザインアイデア … 続きを読む