4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

要約 4M や UnifiedIO などの現在のマルチモーダルおよびマルチタスク

Data Attribution for Text-to-Image Models by Unlearning Synthesized Images

要約 テキストから画像へのモデルのデータ帰属の目的は、新しい画像の生成に最も影響

Towards Evaluating the Robustness of Visual State Space Models

要約 ヴィジョン ステート スペース モデル (VSSM) は、リカレント ニュ

CodedEvents: Optimal Point-Spread-Function Engineering for 3D-Tracking with Event Cameras

要約 点像分布関数 (PSF) エンジニアリングは、位相マスクやその他の光学素子

Scene Graph Generation in Large-Size VHR Satellite Imagery: A Large-Scale Dataset and A Context-Aware Approach

要約 衛星画像 (SAI) におけるシーン グラフ生成 (SGG) は、知覚から

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

要約 マルチモーダル LLM の堅牢なマルチ画像理解機能に焦点を当てた包括的なベ

Explore the Limits of Omni-modal Pretraining at Scale

要約 私たちは、あらゆるモダリティを理解し、普遍的な表現を学習できるオムニモーダ

Depth Anything V2

要約 本作はDepth Anything V2を紹介します。 私たちは、派手なテ

Interpreting the Weight Space of Customized Diffusion Models

要約 カスタマイズされた拡散モデルの大規模なコレクションにまたがる重みの空間を調

Rethinking Score Distillation as a Bridge Between Image Distributions

要約 スコア蒸留サンプリング (SDS) は重要なツールであることが証明されてお

