-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.MM」カテゴリーアーカイブ
Image Captioners Sometimes Tell More Than Images They See
要約 タイトル:画像説明の正確さは時に、画像そのものよりも高くなる 要約: &# … 続きを読む
V2Meow: Meowing to the Visual Beat via Music Generation
要約 タイトル:V2Meow:音楽生成によるビジュアルビートのミウシカ 要約: … 続きを読む
C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval
要約 【タイトル】C2KD: クロスリンガルクロスモーダル知識蒸留法による多言語 … 続きを読む
Interpretable Multimodal Misinformation Detection with Logic Reasoning
要約 タイトル:論理推論による解釈可能なマルチモーダル偽情報検出 要約:  … 続きを読む
Generative Steganographic Flow
要約 タイトル:Generative Steganographic Flow(生 … 続きを読む
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment
要約 タイトル: AlignSTS: クロスモーダルアライメントによる音声から歌 … 続きを読む
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models
要約 タイトル 「画像からテキストのプロンプトへ:凍結された大規模言語モデルによ … 続きを読む
IIITD-20K: Dense captioning for Text-Image ReID
要約 【タイトル】IIITD-20K:Text-Image ReIDのDense … 続きを読む
A vector quantized masked autoencoder for audiovisual speech emotion recognition
要約 タイトル:音声視覚的話し言葉の感情認識のためのベクトル量子化マスクされたオ … 続きを読む