月別アーカイブ: 2025年3月

Poly-MgNet: Polynomial Building Blocks in Multigrid-Inspired ResNets

投稿日: 2025年3月14日作成者: jarxiv

要約 2016年にHE et al。\によってすでに指摘されている畳み込みやプー … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

投稿日: 2025年3月14日作成者: jarxiv

要約表現セグメンテーション（RES）を参照するなどのタスクを含むピクセルの接地 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance Modeling

投稿日: 2025年3月14日作成者: jarxiv

要約 Multi-View画像からの信頼できる髪の外観モデリングの新しい方法であ … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

投稿日: 2025年3月14日作成者: jarxiv

要約オブジェクト幻覚（OH）は、大規模な視覚言語モデル（LVLMS）における主 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

投稿日: 2025年3月14日作成者: jarxiv

要約感情的な模倣強度（EMI）推定は、人間の社会的行動を理解し、人間とコンピュ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction

投稿日: 2025年3月14日作成者: jarxiv

要約ラディアンスフィールドの最近のブレークスルーは、自律運転における3Dシーン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction

投稿日: 2025年3月14日作成者: jarxiv

要約自律運転は、生産性を大幅に向上させ、多くの社会的利益を提供する可能性があり … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

投稿日: 2025年3月14日作成者: jarxiv

要約安定した拡散やDalle-3などのテキストから画像から画像へのモデルは、マ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer

投稿日: 2025年3月14日作成者: jarxiv

要約スタイル転送には、参照画像からターゲット画像のコンテンツにスタイルを転送す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

投稿日: 2025年3月14日作成者: jarxiv

要約大規模な言語モデルは、複雑なテキストタスクで顕著な推論能力を示しています。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年3月

Poly-MgNet: Polynomial Building Blocks in Multigrid-Inspired ResNets

GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance Modeling

TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction

OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction

CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

最近の投稿

最近のコメント

アーカイブ

カテゴリー