-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年2月
DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models
要約 このホワイトペーパーでは、DC(Decouple)-Controlnetを … 続きを読む
カテゴリー: cs.CV
DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models はコメントを受け付けていません
ReVision: A Dataset and Baseline VLM for Privacy-Preserving Task-Oriented Visual Instruction Rewriting
要約 AR、VR、および強力なカメラを備えた最新のスマートフォンが人間コンピュー … 続きを読む
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
要約 3D大手言語モデル(3DLLMS)の最近の進歩は、3D現実世界の汎用エージ … 続きを読む
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
要約 元のSiglipの成功に基づいて構築された新しい多言語ビジョン言語エンコー … 続きを読む
Structurally Disentangled Feature Fields Distillation for 3D Understanding and Editing
要約 最近の作業により、大規模な訓練を受けた2Dモデルを使用して得られた事前に訓 … 続きを読む
カテゴリー: cs.CV
Structurally Disentangled Feature Fields Distillation for 3D Understanding and Editing はコメントを受け付けていません
RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird’s Eye View Segmentation
要約 Bird’s Eye View(BEV)セマンティックマップは … 続きを読む
カテゴリー: cs.CV
RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird’s Eye View Segmentation はコメントを受け付けていません
Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration
要約 このペーパーでは、現在のヒューマノイドロボット制御フレームワークの制限に対 … 続きを読む
A Survey on Text-Driven 360-Degree Panorama Generation
要約 テキスト駆動型の360度のパノラマ生成の出現は、テキストの説明から直接36 … 続きを読む
AVD2: Accident Video Diffusion for Accident Video Description
要約 交通事故は、自律運転の複雑な課題を提示し、しばしば正確なシステムの解釈と応 … 続きを読む
カテゴリー: cs.CV
AVD2: Accident Video Diffusion for Accident Video Description はコメントを受け付けていません
FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis
要約 基礎モデルは、医療ドメインでますます効果的になりつつあり、下流のタスクに容 … 続きを読む