-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.LG」カテゴリーアーカイブ
Jet: A Modern Transformer-Based Normalizing Flow
要約 これまで、生成フローの正規化は、自然画像の生成モデルの有望なクラスとして浮 … 続きを読む
Leveraging Color Channel Independence for Improved Unsupervised Object Detection
要約 オブジェクト中心のアーキテクチャは、ビジュアル シーンから個別のオブジェク … 続きを読む
LlamaFusion: Adapting Pretrained Language Models for Multimodal Generation
要約 私たちは、マルチモーダル生成機能を備えた事前トレーニング済みのテキスト専用 … 続きを読む
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
要約 私たちは、一時的に調整されたクロスモーダル コンディショニングのためのフリ … 続きを読む
Preventing Local Pitfalls in Vector Quantization via Optimal Transport
要約 ベクトル量子化ネットワーク (VQN) は、さまざまなタスクにわたって優れ … 続きを読む
LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-simulation
要約 このペーパーは、動的運転シナリオにおけるリアルタイム LiDAR 再シミュ … 続きを読む
AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving
要約 自動運転 (AD) 向けに調整されたラージ ビジョン言語モデル (VLM) … 続きを読む
OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving
要約 マルチモーダル大規模言語モデル (MLLM) の出現以来、特に自動運転 ( … 続きを読む
PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation
要約 Large Vision-Language Model (LVLM) の大 … 続きを読む
Scaling 4D Representations
要約 ビデオからの純粋な自己教師あり学習については、スケーリングが説得力を持って … 続きを読む