月別アーカイブ: 2025年3月

RMDM: Radio Map Diffusion Model with Physics Informed

要約 ワイヤレス通信技術の急速な発展に伴い、スペクトルリソースの効率的な利用、通 … 続きを読む

カテゴリー: cs.CV | RMDM: Radio Map Diffusion Model with Physics Informed はコメントを受け付けていません

Visual Position Prompt for MLLM based Visual Grounding

要約 マルチモーダルの大手言語モデル(MLLM)は、さまざまな画像関連のタスクに … 続きを読む

カテゴリー: cs.AI, cs.CV | Visual Position Prompt for MLLM based Visual Grounding はコメントを受け付けていません

V2X-DG: Domain Generalization for Vehicle-to-Everything Cooperative Perception

要約 LIDARベースの車両からすべての車両(V2X)協同組合の認識は、自律運転 … 続きを読む

カテゴリー: cs.CV | V2X-DG: Domain Generalization for Vehicle-to-Everything Cooperative Perception はコメントを受け付けていません

MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

要約 このペーパーでは、テキストコンディショニングされたストリーミングモーション … 続きを読む

カテゴリー: cs.CV | MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space はコメントを受け付けていません

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

要約 マスクされた拡散モデル(MDMS)は、強力な生成モデリング手法として浮上し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator はコメントを受け付けていません

FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers

要約 拡散モデル(DM)は、テキストからイメージまでの視覚生成プロセスに革命をも … 続きを読む

カテゴリー: cs.CV | FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers はコメントを受け付けていません

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

要約 エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に … 続きを読む

カテゴリー: cs.AI, cs.CV | EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining はコメントを受け付けていません

Toward task-driven satellite image super-resolution

要約 超解像度は、低解像度の観測から高解像度の画像を再構築することを目的としてい … 続きを読む

カテゴリー: cs.CV | Toward task-driven satellite image super-resolution はコメントを受け付けていません

Cube: A Roblox View of 3D Intelligence

要約 膨大な量のデータで訓練された基礎モデルは、テキスト、画像、オーディオ、ビデ … 続きを読む

カテゴリー: cs.CV | Cube: A Roblox View of 3D Intelligence はコメントを受け付けていません

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

要約 計算病理学においてマルチモーダルラージランゲージモデル(MLLMS)が行っ … 続きを読む

カテゴリー: cs.AI, cs.CV | SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding はコメントを受け付けていません