-
最近の投稿
- Enhancing Learned Image Compression via Cross Window-based Attention
- VLMimic: Vision Language Models are Visual Imitation Learner for Fine-grained Actions
- The Teenager’s Problem: Efficient Garment Decluttering as Probabilistic Set Cover
- EEG-Driven 3D Object Reconstruction with Color Consistency and Diffusion Prior
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?
-
最近のコメント
表示できるコメントはありません。 cs.AI (28748) cs.CL (21725) cs.CR (2242) cs.CV (35326) cs.LG (33516) cs.RO (16623) cs.SY (2560) eess.IV (4307) eess.SY (2554) stat.ML (4493)
月別アーカイブ: 2024年6月
Matching Anything by Segmenting Anything
要約 複雑なシーンのビデオ フレーム全体で同じオブジェクトを確実に関連付けること … 続きを読む
カテゴリー: cs.CV
Matching Anything by Segmenting Anything はコメントを受け付けていません
Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection
要約 非常に低電力のデバイス上で機械学習アプリケーションを可能にする Tiny … 続きを読む
R-CONV: An Analytical Approach for Efficient Data Reconstruction via Convolutional Gradients
要約 分散データの広範なコレクションから学習する取り組みにおいて、フェデレーショ … 続きを読む
M3LEO: A Multi-Modal, Multi-Label Earth Observation Dataset Integrating Interferometric SAR and RGB Data
要約 衛星ベースのリモート センシングは、急速に進化する世界で地球規模の課題に対 … 続きを読む
Understanding Information Storage and Transfer in Multi-modal Large Language Models
要約 Transformer ベースのモデルにおける情報の保存と転送のメカニズム … 続きを読む
カテゴリー: cs.CV
Understanding Information Storage and Transfer in Multi-modal Large Language Models はコメントを受け付けていません
Conv-INR: Convolutional Implicit Neural Representation for Multimodal Visual Signals
要約 暗黙的ニューラル表現 (INR) は、信号表現の有望なパラダイムとして最近 … 続きを読む
カテゴリー: cs.CV
Conv-INR: Convolutional Implicit Neural Representation for Multimodal Visual Signals はコメントを受け付けていません
Localized Gaussian Point Management
要約 ポイントの開始 (モーションからの構造などによる) が分布的に不適切である … 続きを読む
カテゴリー: cs.CV
Localized Gaussian Point Management はコメントを受け付けていません
A Survey on 3D Human Avatar Modeling — From Reconstruction to Generation
要約 3D モデリングは、長い間、コンピューター ビジョンおよびコンピューター … 続きを読む
カテゴリー: cs.CV
A Survey on 3D Human Avatar Modeling — From Reconstruction to Generation はコメントを受け付けていません
GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions
要約 単一ビューのコレクションから 3D ジオメトリと画像を合成するための新しい … 続きを読む
MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding
要約 Long Video Understanding (LVU) パフォーマン … 続きを読む