投稿者「jarxiv」のアーカイブ

MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models

投稿日: 2025年6月17日作成者: jarxiv

要約ジェスチャーの合成は、映画、ロボット工学、仮想現実などのさまざまな分野で幅 … 続きを読む →

カテゴリー: cs.CV, cs.HC | コメントを受け付けていません

Agentic 3D Scene Generation with Spatially Contextualized VLMs

投稿日: 2025年6月17日作成者: jarxiv

要約ビジョン言語モデル（VLM）によって有効になったマルチモーダルコンテンツ生 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Exploiting the Exact Denoising Posterior Score in Training-Free Guidance of Diffusion Models

投稿日: 2025年6月17日作成者: jarxiv

要約拡散モデルの成功は、画像の修復やその他の逆問題を解決するための除去プロセス … 続きを読む →

カテゴリー: cs.CV, cs.LG, stat.ML | コメントを受け付けていません

Enhancing Logits Distillation with Plug\&Play Kendall’s $τ$ Ranking Loss

投稿日: 2025年6月17日作成者: jarxiv

要約知識の蒸留により、通常、教師と生徒のロジットの間のカルバック &#8211 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Unify3D: An Augmented Holistic End-to-end Monocular 3D Human Reconstruction via Anatomy Shaping and Twins Negotiating

投稿日: 2025年6月17日作成者: jarxiv

要約 Monocular 3D Clooded Human Reconstruc … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

XYZ-IBD: A High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity

投稿日: 2025年6月17日作成者: jarxiv

要約 XYZ-IBDを紹介します。これは、挑戦的なオブジェクトのジオメトリ、反射 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding

投稿日: 2025年6月17日作成者: jarxiv

要約フリーフォーム言語を介した複雑な3Dシーンでのセマンティッククエリは、重要 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models

投稿日: 2025年6月17日作成者: jarxiv

要約モデルの編集は、時間のかかる完全な再訓練を必要とせずに、事前に訓練されたモ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

投稿日: 2025年6月17日作成者: jarxiv

要約 GPT-4O様の大型マルチモーダルモデル（LMMS）の出現により、テキスト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

投稿日: 2025年6月17日作成者: jarxiv

要約 EGO-R1は、補強学習（RL）を介して訓練されたEGO-R1エージェント … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models

Agentic 3D Scene Generation with Spatially Contextualized VLMs

Exploiting the Exact Denoising Posterior Score in Training-Free Guidance of Diffusion Models

Enhancing Logits Distillation with Plug\&Play Kendall’s $τ$ Ranking Loss

Unify3D: An Augmented Holistic End-to-end Monocular 3D Human Reconstruction via Anatomy Shaping and Twins Negotiating

XYZ-IBD: A High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity

FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding

DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

最近の投稿

最近のコメント

アーカイブ

カテゴリー