月別アーカイブ: 2024年6月

HyperFields: Towards Zero-Shot Generation of NeRFs from Text

投稿日: 2024年6月14日作成者: jarxiv

要約 HyperFields を紹介します。これは、単一のフォワードパスと ( … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA

投稿日: 2024年6月14日作成者: jarxiv

要約広い時間間隔にまたがる長い形式のビデオは、情報の冗長性が高く、関連性の低い … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms

投稿日: 2024年6月14日作成者: jarxiv

要約最新の視覚モデルは、非常に大規模なノイズの多いデータセットでトレーニングさ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Real-Time Deepfake Detection in the Real-World

投稿日: 2024年6月14日作成者: jarxiv

要約最近の生成 AI の改良により、偽の画像の合成が容易になりました。これら … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

投稿日: 2024年6月14日作成者: jarxiv

要約 Tokenizer は、複雑な視覚データをコンパクトな潜在空間にマッピング … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Yo’LLaVA: Your Personalized Language and Vision Assistant

投稿日: 2024年6月14日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) は、さまざまなタスク (画像キャ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

投稿日: 2024年6月14日作成者: jarxiv

要約この論文では、2D 拡散モデルの 4D 認識と時空間的一貫性を実現し、高品 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations

投稿日: 2024年6月14日作成者: jarxiv

要約 LLM の出現と他のデータモダリティとの統合により、物理世界との接続性に … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

投稿日: 2024年6月14日作成者: jarxiv

要約人間は推論を容易にするために絵を描きます。幾何学の問題を解くときに補助線を … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing

投稿日: 2024年6月14日作成者: jarxiv

要約この論文では、3D 認識と 3D 一貫性を備えた 2D 拡散モデルを強化す … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年6月

HyperFields: Towards Zero-Shot Generation of NeRFs from Text

Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms

Real-Time Deepfake Detection in the Real-World

OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

Yo’LLaVA: Your Personalized Language and Vision Assistant

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing

最近の投稿

最近のコメント

アーカイブ

カテゴリー