-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.LG」カテゴリーアーカイブ
Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces
要約 拡散モデルは、画像、ビデオ、テキスト生成など、さまざまなタスクで単峰性デー … 続きを読む
A Comparative Study of U-Net Architectures for Change Detection in Satellite Images
要約 リモートセンシングの変化の検出は、地球の絶えず変化する風景を監視するために … 続きを読む
Squeeze3D: Your 3D Generation Model is Secretly an Extreme Neural Compressor
要約 Squeeze3Dを提案します。これは、非常に高い圧縮比で3Dデータを圧縮 … 続きを読む
Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models
要約 ビジョン言語モデル(VLM)は、言語のみの対応物の特性と同様の特性であるコ … 続きを読む
Real-time Localization of a Soccer Ball from a Single Camera
要約 単一のブロードキャストカメラからのリアルタイムの3次元フットボール軌道再構 … 続きを読む
CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray
要約 CXR-LTシリーズは、胸部X線(CXR)を使用した肺疾患の分類を強化する … 続きを読む
Rethinking Crowd-Sourced Evaluation of Neuron Explanations
要約 アクティベーションの個々のニューロンまたは方向の解釈空間は、機械的解釈可能 … 続きを読む
Generative Modeling of Weights: Generalization or Memorization?
要約 イメージとビデオ生成に成功した生成モデルは、効果的なニューラルネットワーク … 続きを読む
MADFormer: Mixed Autoregressive and Diffusion Transformers for Continuous Image Generation
要約 マルチモーダル生成の最近の進歩により、自己回帰(AR)と拡散ベースのアプロ … 続きを読む
Hidden in plain sight: VLMs overlook their visual representations
要約 言語は、視覚タスクのパフォーマンスを指定および評価するための自然なインター … 続きを読む