月別アーカイブ: 2024年6月

HyperFields: Towards Zero-Shot Generation of NeRFs from Text

要約 HyperFields を紹介します。これは、単一のフォワード パスと ( … 続きを読む

カテゴリー: cs.CV | HyperFields: Towards Zero-Shot Generation of NeRFs from Text はコメントを受け付けていません

Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA

要約 広い時間間隔にまたがる長い形式のビデオは、情報の冗長性が高く、関連性の低い … 続きを読む

カテゴリー: cs.CV | Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA はコメントを受け付けていません

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms

要約 最新の視覚モデルは、非常に大規模なノイズの多いデータセットでトレーニングさ … 続きを読む

カテゴリー: cs.AI, cs.CV | Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms はコメントを受け付けていません

Real-Time Deepfake Detection in the Real-World

要約 最近の生成 AI の改良により、偽の画像の合成が容易になりました。 これら … 続きを読む

カテゴリー: cs.CV | Real-Time Deepfake Detection in the Real-World はコメントを受け付けていません

OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

要約 Tokenizer は、複雑な視覚データをコンパクトな潜在空間にマッピング … 続きを読む

カテゴリー: cs.CV | OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation はコメントを受け付けていません

Yo’LLaVA: Your Personalized Language and Vision Assistant

要約 大規模マルチモーダル モデル (LMM) は、さまざまなタスク (画像キャ … 続きを読む

カテゴリー: cs.CV, cs.LG | Yo’LLaVA: Your Personalized Language and Vision Assistant はコメントを受け付けていません

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

要約 この論文では、2D 拡散モデルの 4D 認識と時空間的一貫性を実現し、高品 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion はコメントを受け付けていません

MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations

要約 LLM の出現と他のデータ モダリティとの統合により、物理世界との接続性に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations はコメントを受け付けていません

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

要約 人間は推論を容易にするために絵を描きます。幾何学の問題を解くときに補助線を … 続きを読む

カテゴリー: cs.CL, cs.CV | Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models はコメントを受け付けていません

ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing

要約 この論文では、3D 認識と 3D 一貫性を備えた 2D 拡散モデルを強化す … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing はコメントを受け付けていません