投稿者「jarxiv」のアーカイブ

Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment

要約 拡散モデルは、オブジェクト中心のタスクの高品質で多様な合成データを生成する … 続きを読む

カテゴリー: cs.CV | Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment はコメントを受け付けていません

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces

要約 拡散モデルは、画像、ビデオ、テキスト生成など、さまざまなタスクで単峰性デー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces はコメントを受け付けていません

WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning

要約 Deepseek-R1などのテキストベースの推論モデルの成功に基づいて、こ … 続きを読む

カテゴリー: cs.CV | WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning はコメントを受け付けていません

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

要約 人間の毎日の活動は、ビデオストリームの日常的なイベントのシーケンス(例えば … 続きを読む

カテゴリー: cs.CV | VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary はコメントを受け付けていません

DINeMo: Learning Neural Mesh Models with no 3D Annotations

要約 カテゴリレベルの3D/6Dポーズ推定は、包括的な3Dシーンの理解に向けた重 … 続きを読む

カテゴリー: cs.CV | DINeMo: Learning Neural Mesh Models with no 3D Annotations はコメントを受け付けていません

Speedy Deformable 3D Gaussian Splatting: Fast Rendering and Compression of Dynamic Scenes

要約 3Dガウススプラッティング(3DG)の最近の拡張は、ニューラルネットワーク … 続きを読む

カテゴリー: cs.CV, cs.GR | Speedy Deformable 3D Gaussian Splatting: Fast Rendering and Compression of Dynamic Scenes はコメントを受け付けていません

A Comparative Study of U-Net Architectures for Change Detection in Satellite Images

要約 リモートセンシングの変化の検出は、地球の絶えず変化する風景を監視するために … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | A Comparative Study of U-Net Architectures for Change Detection in Satellite Images はコメントを受け付けていません

ViVo: A Dataset for Volumetric Video Reconstruction and Compression

要約 神経体積ビデオの再構築と圧縮の繁栄に関する研究として、再構築モデルと圧縮モ … 続きを読む

カテゴリー: cs.CV | ViVo: A Dataset for Volumetric Video Reconstruction and Compression はコメントを受け付けていません

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

要約 ライティングアシスタント(Grammarly、Microsoft Copi … 続きを読む

カテゴリー: 68T50, cs.AI, cs.CL, cs.CV, I.2.10 | RONA: Pragmatically Diverse Image Captioning with Coherence Relations はコメントを受け付けていません

Squeeze3D: Your 3D Generation Model is Secretly an Extreme Neural Compressor

要約 Squeeze3Dを提案します。これは、非常に高い圧縮比で3Dデータを圧縮 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | Squeeze3D: Your 3D Generation Model is Secretly an Extreme Neural Compressor はコメントを受け付けていません