Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts

要約 大規模な疎活性化モデルは、複数のドメインで優れた性能を獲得している。しかし

Volumetric Disentanglement for 3D Scene Manipulation

要約 近年、差分ボリュームレンダリングの進歩により、複雑な3Dシーンのフォトリア

Blended Latent Diffusion

要約 ニューラル画像生成の驚異的な進歩に加え、全能と思われる視覚言語モデルの出現

GenSDF: Two-Stage Learning of Generalizable Signed Distance Functions

要約 我々は、未見でラベル付けされていない点群に対する3次元物体表現を学習するた

Hybrid Instance-aware Temporal Fusion for Online Video Instance Segmentation

要約 近年、変換器を用いた画像セグメンテーション手法は、従来の解決策に対して注目

Invertible Sharpening Network for MRI Reconstruction Enhancement

要約 高品質なMRI再構成は、臨床応用において重要な役割を果たす。ディープラーニ

Spatial Acoustic Projection for 3D Imaging Sonar Reconstruction

要約 本研究では、マルチビームイメージングソナーを用いて3次元表面を再構築する新

A Deeper Dive Into What Deep Spatiotemporal Networks Encode: Quantifying Static vs. Dynamic Information

要約 時空間深層モデルは、行動認識やビデオオブジェクトのセグメンテーションなど、

Exploring the Potential of SAR Data for Cloud Removal in Optical Satellite Imagery

要約 雲を透過することができる合成開口レーダ(SAR)画像を用いることで、雲除去

BabyNet: Residual Transformer Module for Birth Weight Prediction on Fetal Ultrasound Video

要約 出生時の胎児体重を予測することは周産期医療の重要な側面であり、特に計画的な

