-
最近の投稿
- Learning to Drive Anywhere with Model-Based Reannotation11
- KineSoft: Learning Proprioceptive Manipulation Policies with Soft Robot Hands
- CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory
- Closing the Loop: Motion Prediction Models beyond Open-Loop Benchmarks
- Adaptive Stress Testing Black-Box LLM Planners
-
最近のコメント
表示できるコメントはありません。 cs.AI (37890) cs.CL (28643) cs.CV (43507) cs.HC (2900) cs.LG (42826) cs.RO (22521) cs.SY (3457) eess.IV (5045) eess.SY (3449) stat.ML (5583)
「68T45」カテゴリーアーカイブ
Hodge Laplacians and Hodge Diffusion Maps
要約 Hodge Diffusion Mapsは、高次元データセットからトポロジ … 続きを読む
SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding
要約 ビデオベースの大規模な言語モデル(ビデオ-LLM)は、マルチモーダルLLM … 続きを読む
BUFF: Bayesian Uncertainty Guided Diffusion Probabilistic Model for Single Image Super-Resolution
要約 超解像(SR)技術は、特に高解像度画像が不可欠でありながらハードウェアの制 … 続きを読む
Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data
要約 背景:この研究では、自動化された急性結核(TB)スクリーニングのためのSi … 続きを読む
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models
要約 自律運転における共変量シフト問題に対処するために、潜在空間生成世界モデルの … 続きを読む
Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following
要約 次の具体化された命令(EIF)は、インタラクティブな環境でオブジェクトをナ … 続きを読む
Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations
要約 クリップなどのビジョン言語対照学習フレームワークは、自然言語の監督から学習 … 続きを読む
Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model
要約 マルチモーダルの基礎モデルをトレーニングするためのオーディオとビジュアルデ … 続きを読む
ForAug: Recombining Foregrounds and Backgrounds to Improve Vision Transformer Training with Bias Mitigation
要約 トランス、特にビジョントランス(VITS)は、大規模な画像分類で最先端のパ … 続きを読む