-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年3月
RMDM: Radio Map Diffusion Model with Physics Informed
要約 ワイヤレス通信技術の急速な発展に伴い、スペクトルリソースの効率的な利用、通 … 続きを読む
カテゴリー: cs.CV
RMDM: Radio Map Diffusion Model with Physics Informed はコメントを受け付けていません
Visual Position Prompt for MLLM based Visual Grounding
要約 マルチモーダルの大手言語モデル(MLLM)は、さまざまな画像関連のタスクに … 続きを読む
V2X-DG: Domain Generalization for Vehicle-to-Everything Cooperative Perception
要約 LIDARベースの車両からすべての車両(V2X)協同組合の認識は、自律運転 … 続きを読む
カテゴリー: cs.CV
V2X-DG: Domain Generalization for Vehicle-to-Everything Cooperative Perception はコメントを受け付けていません
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space
要約 このペーパーでは、テキストコンディショニングされたストリーミングモーション … 続きを読む
カテゴリー: cs.CV
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space はコメントを受け付けていません
Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator
要約 マスクされた拡散モデル(MDMS)は、強力な生成モデリング手法として浮上し … 続きを読む
FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers
要約 拡散モデル(DM)は、テキストからイメージまでの視覚生成プロセスに革命をも … 続きを読む
カテゴリー: cs.CV
FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers はコメントを受け付けていません
EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining
要約 エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に … 続きを読む
Toward task-driven satellite image super-resolution
要約 超解像度は、低解像度の観測から高解像度の画像を再構築することを目的としてい … 続きを読む
カテゴリー: cs.CV
Toward task-driven satellite image super-resolution はコメントを受け付けていません
Cube: A Roblox View of 3D Intelligence
要約 膨大な量のデータで訓練された基礎モデルは、テキスト、画像、オーディオ、ビデ … 続きを読む
カテゴリー: cs.CV
Cube: A Roblox View of 3D Intelligence はコメントを受け付けていません
SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding
要約 計算病理学においてマルチモーダルラージランゲージモデル(MLLMS)が行っ … 続きを読む