-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models
要約 ジェスチャーの合成は、映画、ロボット工学、仮想現実などのさまざまな分野で幅 … 続きを読む
Agentic 3D Scene Generation with Spatially Contextualized VLMs
要約 ビジョン言語モデル(VLM)によって有効になったマルチモーダルコンテンツ生 … 続きを読む
Exploiting the Exact Denoising Posterior Score in Training-Free Guidance of Diffusion Models
要約 拡散モデルの成功は、画像の修復やその他の逆問題を解決するための除去プロセス … 続きを読む
Enhancing Logits Distillation with Plug\&Play Kendall’s $τ$ Ranking Loss
要約 知識の蒸留により、通常、教師と生徒のロジットの間のカルバック – … 続きを読む
カテゴリー: cs.CV
Enhancing Logits Distillation with Plug\&Play Kendall’s $τ$ Ranking Loss はコメントを受け付けていません
Unify3D: An Augmented Holistic End-to-end Monocular 3D Human Reconstruction via Anatomy Shaping and Twins Negotiating
要約 Monocular 3D Clooded Human Reconstruc … 続きを読む
カテゴリー: cs.CV
Unify3D: An Augmented Holistic End-to-end Monocular 3D Human Reconstruction via Anatomy Shaping and Twins Negotiating はコメントを受け付けていません
XYZ-IBD: A High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity
要約 XYZ-IBDを紹介します。これは、挑戦的なオブジェクトのジオメトリ、反射 … 続きを読む
カテゴリー: cs.CV
XYZ-IBD: A High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity はコメントを受け付けていません
FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding
要約 フリーフォーム言語を介した複雑な3Dシーンでのセマンティッククエリは、重要 … 続きを読む
カテゴリー: cs.CV
FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding はコメントを受け付けていません
DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models
要約 モデルの編集は、時間のかかる完全な再訓練を必要とせずに、事前に訓練されたモ … 続きを読む
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
要約 GPT-4O様の大型マルチモーダルモデル(LMMS)の出現により、テキスト … 続きを読む
Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning
要約 EGO-R1は、補強学習(RL)を介して訓練されたEGO-R1エージェント … 続きを読む