月別アーカイブ: 2025年4月

SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting

要約 きめ細かい3Dベースのインタラクティブ編集の重要な課題は、特定のメモリ制約 … 続きを読む

カテゴリー: cs.CV, cs.GR | SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting はコメントを受け付けていません

Art3D: Training-Free 3D Generation from Flat-Colored Illustration

要約 大規模な事前訓練を受けた画像から3Dの生成モデルは、多様な形状の世代に顕著 … 続きを読む

カテゴリー: cs.CV | Art3D: Training-Free 3D Generation from Flat-Colored Illustration はコメントを受け付けていません

MIEB: Massive Image Embedding Benchmark

要約 画像表現は、多くの場合、見返りのあるタスク固有のプロトコルによって評価され … 続きを読む

カテゴリー: cs.CL, cs.CV | MIEB: Massive Image Embedding Benchmark はコメントを受け付けていません

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

要約 Native Multimodal Pre-Trainingパラダイムを備 … 続きを読む

カテゴリー: cs.CV | InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models はコメントを受け付けていません

REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

要約 この論文では、基本的な質問に取り組んでいます。「潜在的な拡散モデルと、変分 … 続きを読む

カテゴリー: cs.CV, cs.LG | REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers はコメントを受け付けていません

Decoupled Diffusion Sparks Adaptive Scene Generation

要約 制御可能なシーンの生成は、自律運転のために多様なデータ収集のコストを大幅に … 続きを読む

カテゴリー: cs.CV | Decoupled Diffusion Sparks Adaptive Scene Generation はコメントを受け付けていません

DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting

要約 Monocular Videosから信頼できるアニメーション可能な人間のア … 続きを読む

カテゴリー: cs.CV | DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting はコメントを受け付けていません

FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation

要約 最近のオープンボキャブラリーセマンティックセグメンテーション(OVSS)モ … 続きを読む

カテゴリー: cs.CV, cs.LG | FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation はコメントを受け付けていません

RINGO: Real-time Navigation with a Guiding Trajectory for Aerial Manipulators in Unknown Environments

要約 制約された環境での航空操作者のモーション計画は、通常、既知の環​​境に限定 … 続きを読む

カテゴリー: cs.RO | RINGO: Real-time Navigation with a Guiding Trajectory for Aerial Manipulators in Unknown Environments はコメントを受け付けていません

Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

要約 マルチモーダルLLMS(MLLM)を使用してシステムを提示して、時間的変化 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY | Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images はコメントを受け付けていません