-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark
要約 このペーパーでは、ゼロショットセットアップでテキストからイメージモデルを使 … 続きを読む
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions
要約 GPT-4Oは、多様な感情やトーンとのボーカルな会話を可能にするオムニモー … 続きを読む
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
要約 大規模な視覚言語モデル(LVLMS)の最近の進歩は、具体化されたタスク計画 … 続きを読む
Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention
要約 半監視学習は、労働集約的なピクセルレベルのラベル付けの負担を軽減するために … 続きを読む
PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm
要約 Video Virtual Try-Onは、視覚的な忠実度と時間的一貫性の … 続きを読む
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models
要約 単一のフレームワーク内の多様な画像生成タスクを統合することは、視覚生成にお … 続きを読む
COMBO: Compositional World Models for Embodied Multi-Agent Cooperation
要約 この論文では、具体化されたマルチエージェント協力の問題を調査します。そこで … 続きを読む
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation
要約 Surgical Video-Language Pretraining(V … 続きを読む
HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition
要約 自然言語は、生のテキストから幅広い監督源を提供することにより、ジェネラリス … 続きを読む