月別アーカイブ: 2025年3月

Less Biased Noise Scale Estimation for Threshold-Robust RANSAC

投稿日: 2025年3月18日作成者: jarxiv

要約画像マッチングを通じて相対的なポーズを堅牢に推定するための金標準はRANS … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

投稿日: 2025年3月18日作成者: jarxiv

要約要素レベルの視覚操作はデジタルコンテンツの作成に不可欠ですが、現在の拡散ベ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes

投稿日: 2025年3月18日作成者: jarxiv

要約 3D再建技術の急速な発展により、4D再建の研究も進歩しています。既存の4D … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Unified Autoregressive Visual Generation and Understanding with Continuous Tokens

投稿日: 2025年3月18日作成者: jarxiv

要約共同視覚生成と連続的な視覚トークンの活用を理解するための統一された自己回帰 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling

投稿日: 2025年3月18日作成者: jarxiv

要約線形の複雑さを伴うRNNモデルの進歩により、変圧器の二次複雑さの課題は克服 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images

投稿日: 2025年3月18日作成者: jarxiv

要約ほとんどの画像ベースの3Dオブジェクトリクストラクターは、実際のシナリオで … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Humanoid Policy ~ Human Policy

投稿日: 2025年3月18日作成者: jarxiv

要約さまざまなデータを使用したヒューマノイドロボットのトレーニング操作ポリシー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models

投稿日: 2025年3月18日作成者: jarxiv

要約ベースニュートレードオフ（BNT）問題は、クリップベースのプロンプトチュー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

投稿日: 2025年3月18日作成者: jarxiv

要約独自の時間的次元を備えたビデオは、回答が視覚的で解釈可能な証拠に直接リンク … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

投稿日: 2025年3月18日作成者: jarxiv

要約モバイル操作は、日常生活における多様なタスクと環境を持つ人間を支援するため … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

月別アーカイブ: 2025年3月

Less Biased Noise Scale Estimation for Threshold-Robust RANSAC

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes

Unified Autoregressive Visual Generation and Understanding with Continuous Tokens

MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling

Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images

Humanoid Policy ~ Human Policy

DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

最近の投稿

最近のコメント

アーカイブ

カテゴリー