-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年6月
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
要約 4M や UnifiedIO などの現在のマルチモーダルおよびマルチタスク … 続きを読む
Data Attribution for Text-to-Image Models by Unlearning Synthesized Images
要約 テキストから画像へのモデルのデータ帰属の目的は、新しい画像の生成に最も影響 … 続きを読む
Towards Evaluating the Robustness of Visual State Space Models
要約 ヴィジョン ステート スペース モデル (VSSM) は、リカレント ニュ … 続きを読む
カテゴリー: cs.CV
Towards Evaluating the Robustness of Visual State Space Models はコメントを受け付けていません
CodedEvents: Optimal Point-Spread-Function Engineering for 3D-Tracking with Event Cameras
要約 点像分布関数 (PSF) エンジニアリングは、位相マスクやその他の光学素子 … 続きを読む
Scene Graph Generation in Large-Size VHR Satellite Imagery: A Large-Scale Dataset and A Context-Aware Approach
要約 衛星画像 (SAI) におけるシーン グラフ生成 (SGG) は、知覚から … 続きを読む
MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding
要約 マルチモーダル LLM の堅牢なマルチ画像理解機能に焦点を当てた包括的なベ … 続きを読む
Explore the Limits of Omni-modal Pretraining at Scale
要約 私たちは、あらゆるモダリティを理解し、普遍的な表現を学習できるオムニモーダ … 続きを読む
Depth Anything V2
要約 本作はDepth Anything V2を紹介します。 私たちは、派手なテ … 続きを読む
カテゴリー: cs.CV
Depth Anything V2 はコメントを受け付けていません
Interpreting the Weight Space of Customized Diffusion Models
要約 カスタマイズされた拡散モデルの大規模なコレクションにまたがる重みの空間を調 … 続きを読む
Rethinking Score Distillation as a Bridge Between Image Distributions
要約 スコア蒸留サンプリング (SDS) は重要なツールであることが証明されてお … 続きを読む