-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
FArMARe: a Furniture-Aware Multi-task methodology for Recommending Apartments based on the user interests
要約 現在、多くの人が新しい宿泊施設の選択肢を頻繁に探さなければなりません。 適 … 続きを読む
Exploring the Intersection of Complex Aesthetics and Generative AI for Promoting Cultural Creativity in Rural China after the Post-Pandemic Era
要約 この論文では、新型コロナウイルス感染症 (COVID-19) の影響を受け … 続きを読む
Prototype-based Dataset Comparison
要約 データセットの要約は、データセット検査に対する有益なアプローチです。 ただ … 続きを読む
RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model
要約 膨大な画像とテキストのペアデータを利用した事前学習済み視覚言語基盤モデルは … 続きを読む
Towards Contrastive Learning in Music Video Domain
要約 対照学習は、画像キャプション検索やオーディオビジュアル表現学習など、様々な … 続きを読む
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation
要約 本論文では、参照ガイド付き潜在拡散を用いて、高フレーム忠実度と強い時間的一 … 続きを読む
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following
要約 我々は、点群データを2次元画像、言語、音声、動画像と整合させる3次元マルチ … 続きを読む
Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media
要約 Reddit ディスカッションなどのオンライン ソーシャル ネットワークに … 続きを読む
Terrain Diffusion Network: Climatic-Aware Terrain Generation with Geological Sketch Guidance
要約 スケッチベースの地形生成は、コンピューター ゲーム、アニメーション、仮想現 … 続きを読む
Priority-Centric Human Motion Generation in Discrete Latent Space
要約 テキストからモーションへの生成は、人間の能力と物理法則に準拠しながら、入力 … 続きを読む