-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model
要約 最近、ラージ言語モデル (LLM) の強力なテキスト作成能力により、論文の … 続きを読む
Language Models as Black-Box Optimizers for Vision-Language Models
要約 Web スケールのデータセットで事前トレーニングされたビジョン言語モデル … 続きを読む
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets
要約 この論文では、人間が注釈を付けたキャプションと Web で収集したキャプシ … 続きを読む
Multi-task learning with cross-task consistency for improved depth estimation in colonoscopy
要約 結腸内視鏡検査スクリーニングは、潰瘍や癌性ポリープなどの結腸と直腸の異常を … 続きを読む
Automated interpretation of congenital heart disease from multi-view echocardiograms
要約 先天性心疾患(CHD)は、中国で最も一般的な先天異常であり、新生児死亡の主 … 続きを読む
カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV, physics.med-ph
Automated interpretation of congenital heart disease from multi-view echocardiograms はコメントを受け付けていません
Motion-Conditioned Image Animation for Video Editing
要約 ビデオ編集のためのモーションコンディショニングされたイメージ アニメーショ … 続きを読む
VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models
要約 拡散モデルは、画像とビデオの生成において大きな成功を収めています。 これに … 続きを読む
Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes
要約 ディープフェイク検出の課題は、音声や視覚の研究者によって解決されるには程遠 … 続きを読む
BAND-2k: Banding Artifact Noticeable Database for Banding Detection and Quality Assessment
要約 階段状の輪郭とも呼ばれるバンディングは、圧縮アルゴリズムまたは量子化アルゴ … 続きを読む