-
最近の投稿
- Learning to Drive Anywhere with Model-Based Reannotation11
- KineSoft: Learning Proprioceptive Manipulation Policies with Soft Robot Hands
- CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory
- Closing the Loop: Motion Prediction Models beyond Open-Loop Benchmarks
- Adaptive Stress Testing Black-Box LLM Planners
-
最近のコメント
表示できるコメントはありません。 cs.AI (37890) cs.CL (28643) cs.CV (43507) cs.HC (2900) cs.LG (42826) cs.RO (22521) cs.SY (3457) eess.IV (5045) eess.SY (3449) stat.ML (5583)
月別アーカイブ: 2024年6月
Matching Anything by Segmenting Anything
要約 複雑なシーンのビデオ フレーム全体で同じオブジェクトを確実に関連付けること … 続きを読む
カテゴリー: cs.CV
Matching Anything by Segmenting Anything はコメントを受け付けていません
Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection
要約 非常に低電力のデバイス上で機械学習アプリケーションを可能にする Tiny … 続きを読む
R-CONV: An Analytical Approach for Efficient Data Reconstruction via Convolutional Gradients
要約 分散データの広範なコレクションから学習する取り組みにおいて、フェデレーショ … 続きを読む
M3LEO: A Multi-Modal, Multi-Label Earth Observation Dataset Integrating Interferometric SAR and RGB Data
要約 衛星ベースのリモート センシングは、急速に進化する世界で地球規模の課題に対 … 続きを読む
Understanding Information Storage and Transfer in Multi-modal Large Language Models
要約 Transformer ベースのモデルにおける情報の保存と転送のメカニズム … 続きを読む
カテゴリー: cs.CV
Understanding Information Storage and Transfer in Multi-modal Large Language Models はコメントを受け付けていません
Conv-INR: Convolutional Implicit Neural Representation for Multimodal Visual Signals
要約 暗黙的ニューラル表現 (INR) は、信号表現の有望なパラダイムとして最近 … 続きを読む
カテゴリー: cs.CV
Conv-INR: Convolutional Implicit Neural Representation for Multimodal Visual Signals はコメントを受け付けていません
Localized Gaussian Point Management
要約 ポイントの開始 (モーションからの構造などによる) が分布的に不適切である … 続きを読む
カテゴリー: cs.CV
Localized Gaussian Point Management はコメントを受け付けていません
A Survey on 3D Human Avatar Modeling — From Reconstruction to Generation
要約 3D モデリングは、長い間、コンピューター ビジョンおよびコンピューター … 続きを読む
カテゴリー: cs.CV
A Survey on 3D Human Avatar Modeling — From Reconstruction to Generation はコメントを受け付けていません
GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions
要約 単一ビューのコレクションから 3D ジオメトリと画像を合成するための新しい … 続きを読む
MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding
要約 Long Video Understanding (LVU) パフォーマン … 続きを読む