月別アーカイブ: 2025年3月

RMDM: Radio Map Diffusion Model with Physics Informed

投稿日: 2025年3月20日作成者: jarxiv

要約ワイヤレス通信技術の急速な発展に伴い、スペクトルリソースの効率的な利用、通 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Visual Position Prompt for MLLM based Visual Grounding

投稿日: 2025年3月20日作成者: jarxiv

要約マルチモーダルの大手言語モデル（MLLM）は、さまざまな画像関連のタスクに … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

V2X-DG: Domain Generalization for Vehicle-to-Everything Cooperative Perception

投稿日: 2025年3月20日作成者: jarxiv

要約 LIDARベースの車両からすべての車両（V2X）協同組合の認識は、自律運転 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

投稿日: 2025年3月20日作成者: jarxiv

要約このペーパーでは、テキストコンディショニングされたストリーミングモーション … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

投稿日: 2025年3月20日作成者: jarxiv

要約マスクされた拡散モデル（MDMS）は、強力な生成モデリング手法として浮上し … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers

投稿日: 2025年3月20日作成者: jarxiv

要約拡散モデル（DM）は、テキストからイメージまでの視覚生成プロセスに革命をも … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

投稿日: 2025年3月20日作成者: jarxiv

要約エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Toward task-driven satellite image super-resolution

投稿日: 2025年3月20日作成者: jarxiv

要約超解像度は、低解像度の観測から高解像度の画像を再構築することを目的としてい … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Cube: A Roblox View of 3D Intelligence

投稿日: 2025年3月20日作成者: jarxiv

要約膨大な量のデータで訓練された基礎モデルは、テキスト、画像、オーディオ、ビデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

投稿日: 2025年3月20日作成者: jarxiv

要約計算病理学においてマルチモーダルラージランゲージモデル（MLLMS）が行っ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年3月

RMDM: Radio Map Diffusion Model with Physics Informed

Visual Position Prompt for MLLM based Visual Grounding

V2X-DG: Domain Generalization for Vehicle-to-Everything Cooperative Perception

MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

Toward task-driven satellite image super-resolution

Cube: A Roblox View of 3D Intelligence

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

最近の投稿

最近のコメント

アーカイブ

カテゴリー