-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.MM」カテゴリーアーカイブ
ImageBind-LLM: Multi-modality Instruction Tuning
要約 ImageBind-LLM は、ImageBind を介した大規模言語モデ … 続きを読む
Generative Steganography Diffusion
要約 生成ステガノグラフィー (GS) は、機密データから直接ステゴ画像を生成す … 続きを読む
Extraction of Visual Information to Predict Crowdfunding Success
要約 研究者は、起業家の活動やダイナミクスについての洞察を得るために、ますますク … 続きを読む
FArMARe: a Furniture-Aware Multi-task methodology for Recommending Apartments based on the user interests
要約 現在、多くの人が新しい宿泊施設の選択肢を頻繁に探さなければなりません。 適 … 続きを読む
Exploring the Intersection of Complex Aesthetics and Generative AI for Promoting Cultural Creativity in Rural China after the Post-Pandemic Era
要約 この論文では、新型コロナウイルス感染症 (COVID-19) の影響を受け … 続きを読む
Prototype-based Dataset Comparison
要約 データセットの要約は、データセット検査に対する有益なアプローチです。 ただ … 続きを読む
RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model
要約 膨大な画像とテキストのペアデータを利用した事前学習済み視覚言語基盤モデルは … 続きを読む
Towards Contrastive Learning in Music Video Domain
要約 対照学習は、画像キャプション検索やオーディオビジュアル表現学習など、様々な … 続きを読む
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation
要約 本論文では、参照ガイド付き潜在拡散を用いて、高フレーム忠実度と強い時間的一 … 続きを読む
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following
要約 我々は、点群データを2次元画像、言語、音声、動画像と整合させる3次元マルチ … 続きを読む