-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping
要約 根底にある幾何学的原始として、3D指向のボックスを使用してローカリゼーショ … 続きを読む
カテゴリー: cs.CV
Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping はコメントを受け付けていません
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers
要約 LORAモデルを使用したマルチコンセプト画像編集の最初のフレームワークであ … 続きを読む
カテゴリー: cs.CV
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers はコメントを受け付けていません
Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models
要約 自律運転のビジョン言語アクション(VLA)モデルは、主にターゲットベンチマ … 続きを読む
カテゴリー: cs.CV
Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models はコメントを受け付けていません
Puzzled by Puzzles: When Vision-Language Models Can’t Take a Hint
要約 レバスパズル、画像を介して言語をエンコードする視覚的な謎、空間的配置、およ … 続きを読む
Diffusion Classifiers Understand Compositionality, but Conditions Apply
要約 視覚的なシーンを理解することは、人間の知性の基本です。 識別モデルにはコン … 続きを読む
カテゴリー: cs.CV
Diffusion Classifiers Understand Compositionality, but Conditions Apply はコメントを受け付けていません
Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch
要約 スケッチリサーチは時間とともに集合的に成熟しているため、AT-Massの商 … 続きを読む
カテゴリー: cs.CV
Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch はコメントを受け付けていません
ZeroGUI: Automating Online GUI Learning at Zero Human Cost
要約 大規模なビジョン言語モデル(VLM)の迅速な進歩により、純粋なビジョンベー … 続きを読む
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence
要約 空間インテリジェンスは、複雑な物理的世界で動作するマルチモーダル大手言語モ … 続きを読む
Weight Space Representation Learning on Diverse NeRF Architectures
要約 ニューラル放射輝度フィールド(NERF)は、神経ネットワークの重みに形状と … 続きを読む
カテゴリー: cs.CV
Weight Space Representation Learning on Diverse NeRF Architectures はコメントを受け付けていません
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought
要約 マルチモーダル大手言語モデル(MLLM)の最近の進歩は、視覚言語のタスクに … 続きを読む
カテゴリー: cs.CV
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought はコメントを受け付けていません