投稿者「jarxiv」のアーカイブ

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

投稿日: 2025年5月27日作成者: jarxiv

要約大規模な自然なシーン画像で対比訓練された視覚エンコーダーの恩恵を受けて、大 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

投稿日: 2025年5月27日作成者: jarxiv

要約近年、オーディオ駆動型の人間のアニメーションの大きな進歩が目撃されています … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs

投稿日: 2025年5月27日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）は、多様なタスク全体で顕著な能力を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Long-Context State-Space Video World Models

投稿日: 2025年5月27日作成者: jarxiv

要約ビデオ拡散モデルは最近、アクションを条件とする自己回帰フレーム予測を通じて … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition

投稿日: 2025年5月27日作成者: jarxiv

要約輝度が高い時間分解能で変化するイベントカメラは、本質的に重要なオブジェクト … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion

投稿日: 2025年5月27日作成者: jarxiv

要約医療画像の分類は臨床的意思決定には重要ですが、正確性、解釈可能性、一般化に … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology

投稿日: 2025年5月27日作成者: jarxiv

要約 Pathology Foundationモデルの出現は、計算組織病理学に革 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes

投稿日: 2025年5月27日作成者: jarxiv

要約インタラクティブな3Dセグメンテーションは、ユーザーが提供するクリックを組 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Open the Eyes of MPNN: Vision Enhances MPNN in Link Prediction

投稿日: 2025年5月27日作成者: jarxiv

要約メッセージパスグラフニューラルネットワーク（MPNNS）と構造的特徴（SF … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Multimodal Federated Learning With Missing Modalities through Feature Imputation Network

投稿日: 2025年5月27日作成者: jarxiv

要約マルチモーダルフェデレーションラーニングは、生データを共有せずに複数のソー … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs

Long-Context State-Space Video World Models

AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition

EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion

PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology

Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes

Open the Eyes of MPNN: Vision Enhances MPNN in Link Prediction

Multimodal Federated Learning With Missing Modalities through Feature Imputation Network

最近の投稿

最近のコメント

アーカイブ

カテゴリー