cs.CV」カテゴリーアーカイブ

MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models

要約 ジェスチャーの合成は、映画、ロボット工学、仮想現実などのさまざまな分野で幅 … 続きを読む

カテゴリー: cs.CV, cs.HC | MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models はコメントを受け付けていません

Agentic 3D Scene Generation with Spatially Contextualized VLMs

要約 ビジョン言語モデル(VLM)によって有効になったマルチモーダルコンテンツ生 … 続きを読む

カテゴリー: cs.CV, cs.GR | Agentic 3D Scene Generation with Spatially Contextualized VLMs はコメントを受け付けていません

Exploiting the Exact Denoising Posterior Score in Training-Free Guidance of Diffusion Models

要約 拡散モデルの成功は、画像の修復やその他の逆問題を解決するための除去プロセス … 続きを読む

カテゴリー: cs.CV, cs.LG, stat.ML | Exploiting the Exact Denoising Posterior Score in Training-Free Guidance of Diffusion Models はコメントを受け付けていません

Enhancing Logits Distillation with Plug\&Play Kendall’s $τ$ Ranking Loss

要約 知識の蒸留により、通常、教師と生徒のロジットの間のカルバック &#8211 … 続きを読む

カテゴリー: cs.CV | Enhancing Logits Distillation with Plug\&Play Kendall’s $τ$ Ranking Loss はコメントを受け付けていません

Unify3D: An Augmented Holistic End-to-end Monocular 3D Human Reconstruction via Anatomy Shaping and Twins Negotiating

要約 Monocular 3D Clooded Human Reconstruc … 続きを読む

カテゴリー: cs.CV | Unify3D: An Augmented Holistic End-to-end Monocular 3D Human Reconstruction via Anatomy Shaping and Twins Negotiating はコメントを受け付けていません

XYZ-IBD: A High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity

要約 XYZ-IBDを紹介します。これは、挑戦的なオブジェクトのジオメトリ、反射 … 続きを読む

カテゴリー: cs.CV | XYZ-IBD: A High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity はコメントを受け付けていません

FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding

要約 フリーフォーム言語を介した複雑な3Dシーンでのセマンティッククエリは、重要 … 続きを読む

カテゴリー: cs.CV | FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding はコメントを受け付けていません

DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models

要約 モデルの編集は、時間のかかる完全な再訓練を必要とせずに、事前に訓練されたモ … 続きを読む

カテゴリー: cs.AI, cs.CV | DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models はコメントを受け付けていません

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

要約 GPT-4O様の大型マルチモーダルモデル(LMMS)の出現により、テキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model はコメントを受け付けていません

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

要約 EGO-R1は、補強学習(RL)を介して訓練されたEGO-R1エージェント … 続きを読む

カテゴリー: cs.AI, cs.CV | Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning はコメントを受け付けていません