月別アーカイブ: 2025年3月

Poly-MgNet: Polynomial Building Blocks in Multigrid-Inspired ResNets

要約 2016年にHE et al。\によってすでに指摘されている畳み込みやプー … 続きを読む

カテゴリー: cs.CV, cs.LG | Poly-MgNet: Polynomial Building Blocks in Multigrid-Inspired ResNets はコメントを受け付けていません

GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

要約 表現セグメンテーション(RES)を参照するなどのタスクを含むピクセルの接地 … 続きを読む

カテゴリー: cs.CV | GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding はコメントを受け付けていません

GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance Modeling

要約 Multi-View画像からの信頼できる髪の外観モデリングの新しい方法であ … 続きを読む

カテゴリー: cs.CV, cs.GR | GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance Modeling はコメントを受け付けていません

TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

要約 オブジェクト幻覚(OH)は、大規模な視覚言語モデル(LVLMS)における主 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention はコメントを受け付けていません

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

要約 感情的な模倣強度(EMI)推定は、人間の社会的行動を理解し、人間とコンピュ … 続きを読む

カテゴリー: cs.AI, cs.CV | Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation はコメントを受け付けていません

MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction

要約 ラディアンスフィールドの最近のブレークスルーは、自律運転における3Dシーン … 続きを読む

カテゴリー: cs.CV | MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction はコメントを受け付けていません

OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction

要約 自律運転は、生産性を大幅に向上させ、多くの社会的利益を提供する可能性があり … 続きを読む

カテゴリー: cs.CV | OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction はコメントを受け付けていません

CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

要約 安定した拡散やDalle-3などのテキストから画像から画像へのモデルは、マ … 続きを読む

カテゴリー: cs.CV | CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing はコメントを受け付けていません

ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer

要約 スタイル転送には、参照画像からターゲット画像のコンテンツにスタイルを転送す … 続きを読む

カテゴリー: cs.CV | ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer はコメントを受け付けていません

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

要約 大規模な言語モデルは、複雑なテキストタスクで顕著な推論能力を示しています。 … 続きを読む

カテゴリー: cs.CV | R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization はコメントを受け付けていません