-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年4月
Digital Twin Generation from Visual Data: A Survey
要約 この調査では、ビデオからデジタルツインを生成する最近の開発を調査します。 … 続きを読む
カテゴリー: cs.CV
Digital Twin Generation from Visual Data: A Survey はコメントを受け付けていません
Personalized Text-to-Image Generation with Auto-Regressive Models
要約 パーソナライズされた画像合成は、テキストから画像の生成における極めて重要な … 続きを読む
カテゴリー: cs.CV
Personalized Text-to-Image Generation with Auto-Regressive Models はコメントを受け付けていません
ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos
要約 人間中心の3D世界の認識において、単一の単眼内の野生のビデオフィギュアから … 続きを読む
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling
要約 ビジョン言語モデル(VLM)は視覚的な理解に優れていますが、視覚的な幻覚に … 続きを読む
カテゴリー: cs.CV
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling はコメントを受け付けていません
Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities
要約 状況に応じたコミュニケーションでの空間的表現は、スピーカーやリスナーが採用 … 続きを読む
IMAGGarment-1: Fine-Grained Garment Generation for Controllable Fashion Design
要約 このホワイトペーパーでは、シルエット、色、ロゴの配置を正確に制御できる高忠 … 続きを読む
カテゴリー: cs.CV
IMAGGarment-1: Fine-Grained Garment Generation for Controllable Fashion Design はコメントを受け付けていません
Single-Shot Shape and Reflectance with Spatial Polarization Multiplexing
要約 単一の偏光画像からオブジェクトの形状と反射率を再構築するための空間分極マル … 続きを読む
カテゴリー: cs.CV
Single-Shot Shape and Reflectance with Spatial Polarization Multiplexing はコメントを受け付けていません
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
要約 ビジョン言語モデルはコンピュータービジョンの研究に不可欠ですが、多くの高性 … 続きを読む
ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation
要約 オブジェクト6Dのポーズ推定は、特に操作タスクでは、ロボット工学の重要な課 … 続きを読む
Perception Encoder: The best visual embeddings are not at the output of the network
要約 単純なビジョン言語学習を通じてトレーニングされた画像およびビデオ理解用の最 … 続きを読む
カテゴリー: cs.CV
Perception Encoder: The best visual embeddings are not at the output of the network はコメントを受け付けていません