cs.CV」カテゴリーアーカイブ

PERSE: Personalized 3D Generative Avatars from A Single Portrait

要約 参照ポートレートからアニメーション化可能な個人化された生成アバターを構築す … 続きを読む

カテゴリー: cs.CV | PERSE: Personalized 3D Generative Avatars from A Single Portrait はコメントを受け付けていません

ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning

要約 取得したデータを使用した最近の軽量画像キャプション モデルは、主にテキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning はコメントを受け付けていません

VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

要約 ゼロショットのカスタマイズされたビデオ生成は、その大きな応用可能性により大 … 続きを読む

カテゴリー: cs.CV | VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models はコメントを受け付けていません

MVTamperBench: Evaluating Robustness of Vision-Language Models

要約 視覚言語モデル (VLM) の最近の進歩により、複雑なビデオ理解タスクが大 … 続きを読む

カテゴリー: 68Q32, 68Q85, 68T05, 68T37, 68T40, 68T45, 94A08, cs.CV, I.2.10 | MVTamperBench: Evaluating Robustness of Vision-Language Models はコメントを受け付けていません

Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation

要約 人間は、エピソード シミュレーションとエピソード記憶を使用して、なじみのな … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation はコメントを受け付けていません

A Light-Weight Framework for Open-Set Object Detection with Decoupled Feature Alignment in Joint Space

要約 オープンセットオブジェクト検出 (OSOD) は、非構造化環境でのロボット … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | A Light-Weight Framework for Open-Set Object Detection with Decoupled Feature Alignment in Joint Space はコメントを受け付けていません

EC-Diffuser: Multi-Object Manipulation via Entity-Centric Behavior Generation

要約 オブジェクトの操作は日常業務の一般的な要素ですが、高次元の観察からオブジェ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | EC-Diffuser: Multi-Object Manipulation via Entity-Centric Behavior Generation はコメントを受け付けていません

PhotoBot: Reference-Guided Interactive Photography via Natural Language

要約 人間の高度な言語ガイダンスとロボット写真家の間の相互作用に基づいて、完全に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | PhotoBot: Reference-Guided Interactive Photography via Natural Language はコメントを受け付けていません

Learning Monocular Depth from Events via Egomotion Compensation

要約 イベント カメラは、明るさの変化をまばらかつ非同期に報告する神経形態にヒン … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Learning Monocular Depth from Events via Egomotion Compensation はコメントを受け付けていません

CSCPR: Cross-Source-Context Indoor RGB-D Place Recognition

要約 以前の研究である PoCo を拡張し、グローバルな検索と再ランキングをエン … 続きを読む

カテゴリー: cs.CV, cs.RO | CSCPR: Cross-Source-Context Indoor RGB-D Place Recognition はコメントを受け付けていません